Big data, Clouds & HPC

Управление в меняющемся мире

Большие данные, облака и
вычисления

Microsoft, Анджей Аршавский
andzhey@microsoft.com

Business is a dogfight.
Your job as a leader:
Outmaneuver the competition, respond
decisively to fast-changing conditions, and
defeat your rivals. That's why the OODA loop,
the brainchild of "40 Second" Boyd, an
unconventional fighter pilot, is one of today's
most important ideas in battle or in business.

Keith Hammonds, “The Strategy of the Fighter Pilot,” Fast
Company, June 2002.

Цикл Бойда

Наблюдение Ориентация Решение Действие
Явное Неявное
Наблюдение управление & Культ .
управление
событий контроль традиции & контроль

наследие Анализ и
Наблюдения Решения Действие
синтез
(Гипотезы) (тест)
Новая
информация Прошлый
Внешняя опыт Раскрытие
информация взаимодейст
вий со
Измерение
средой
взаимодейст ос
вия с
окружением ос

Заметьте, как ориентация влияет на наблюдение, решения и действия и все это влияет через
обратную связь на следующие итерации наблюдения, позволяя новым феноменам попадать в
поле зрения системы.
Также отметьте как весь цикл является непрекращающимся многосторонним неявным
многосвязным процессом ориентации, фокусировки, корреляции и фильтрации.
From “The Essence of Winning and Losing,” John R. Boyd, January 1996
“Organic Design for Command and Control”, Boyd .

Знания из данных для OODA цикла
1. Наблюдение 2. Гипотеза Observe

Act OODA Orient

Decide
4. Проверка 3. Предсказание

4ая парадигма Data
науки:
Knowledge

Validate Analytics Model
Info

Data
Predict

Терабайты и Петабайты данных…
Поступающих ежедневно….

НАУКА

В 2000 телескоп Sloan Digital Sky Survey за первую
неделю работы собрал больше данных чем было
накоплено за всю историю астрономии

К 2016 новый телескоп Large Synoptic Survey в Китае
планирует собрать 140 терабайт за первые 5 дней –
больше чем собрал Sloan за 10 лет

LHC в CERN получает 40 терабайт данных за секунду

БИЗНЕС

Интернет

Социальные сети

Транзакции

CRM

Датчики/Камеры/RFID/…

Больше, больше и еще больше….
• 1 EB = 10^18 байт = 1000000 терабайт
• 1 ZB = 10^21 байт
• 1.2 ZB новых байт информации в 2010
Источник: IDC, as reported in The Economist, Feb 25, 2010

• Более 1.8 ZB в 2011
• 120 петабайт: IBM строит крупнейшее хранилище данных (Август 2011)
• 2TB Cloud Storage: £10: www.livedrive.com
• К 2013, ежегодный IP трафик достигнет 667 EB. Интернет видео
– 18 EB в месяц. Мобильный трафик -2 EB в месяц
• Facebook перенес 30 PB на Hadoop (Jul. 27, 2011)
• Источники разнообразны
– Сенсоры, crawler-ы, устройства,
приложения, документы
– ERP, CRM, PLM, HRM, LOB
• Хранение данных стоит почти $0.00
– Хранение сырых данных
– Можно экспериментировать с аналитикой

Big Data = 3V

• Volume
• Velocity
• Variety

"...data that is too large to process and manage using
conventional database management technologies. Big
data has numerous attributes in addition to its large size,
including it is typically unstructured and often dispersed.“
-David Valante

Озера данных

 Единый источник
 Большой объем
 Неочищенный резервуар
 Может быть исследован
 Есть 0-2 озера на компанию Источники данных:
 Не вмещаются в традиционные RDBMS
 Содержат известные и неизвестные  Transactional
ответы  Financial
 retail
 Non Transactional
 Web pages, blogs…
 Documents
 Physical events
 Applications events
 Machine events

Чтобы лучше понять свой бизнес

Исследования IDC:

“In 2012 a healthy chunk of IT spending -- as
much as 20%, -- will be driven by a handful of
technologies that are reshaping the IT industry”:

• smartphones
• media tablets
• mobile networks
• social networking
• big data analytics

Использование Big Data

• Финансы (risk management, real time
trades)
• Здравоохранение
• Розничная торговля
• Подразделения продаж

Data
preprocessing
Структура подходов к анализу данных
Cleaning
Data Integration Predictive analysis
Data reduction • Regressions, Classifications
Data Mining • To get model from data
• Class/Concept detection • Neural networks
• Finding Patterns, associations, correlations • Statistics
• Regressions Descriptive analysis
• Cluster Analysis • Look at data thru different angles
• Outliner Analysis • Distribution shapes, trends, …
Prescriptive analysis
Outliners-> Anomaly Detection
• Decision making models
• Rare Class Mining
• Optimization
• Chance discovery
• Simulation
• Novelty Detection
• Exception Mining
• Noise Removal Application Examples
• Black Swan • Load forecasting
• Diagnosis
Applications of Anomaly Detection • Marketing and Sales
Network intrusion detection • Behavior prediction
Insurance / Credit card fraud detection • Market prediction
Healthcare Informatics / Medical diagnostics • Engineering
Industrial Damage Detection • Finance
Fraud Detection • Failure management
Image Processing / Video surveillance • Consumption demand
Novel Topic Detection in Text Mining

Новые направления Machine Learning

• Распознавание речи
• Компьютерное зрение
• Bio-surveillance
• Robot control
• Ускорение эмпирической науки

Традиционный HPC
эргономика
тепло

• Моделирование объектов и процессов
• Высокая стоимость оборудования
• Требует редких умений для разработки ПО нефть
• От разработки новых Hi-Tech решений к принятию
повседневных бизнес решений
Геном, медицина, лекарства

Фильмы
CFD
SPI Planning
Материаловедение

HPC для всех?

Вычислительные ресурсы

1M 80%

14M 20%

Полное отсутствие или
70M
55M ограниченность доступа к
ресурсам high performance
data-intensive

Ученные & Инженеры

Стоимость вычислений

$3 billion per Genome
$3,000,000,000

$60,000,000

$1,000,000

$48,000 $45,000 per Genome

$10,000

$2,500 $500-$10,000 per Genome

$500

$100 $100 per Genome?

Принципиальная доступность

Today

X64 Server Cloud

$40,000,000 $1,000,000 < $4,000 ~$.10/hr/core
(40x drop) (250x drop)

Закон Мура жив
1.E+07

1.E+06

1.E+05
Transistors (in
1.E+04 thousands)

1.E+03

Frequency
1.E+02 (MHz)

1.E+01

Cores
1.E+00

1.E-01
1970 1980 1990 2000 2010

…a hardware issue just became a software problem
“The era of single processor systems is over; the multi- and many-core systems
world is here. If you're not ready for this change, there's an IT train wreck in your
future. - HPC Wire

Big Data & HPC

• Big Data увеличивает спрос на распределённые
вычисления
– noSQL, Map/Reduce, MPI, …
– Desktop более не могут быть бутылочным горлом
• Предпосылки для больших вычислений
– Big Data, Регуляция, Симуляция
• Симуляция может генерировать Big Data
• Пре и пост симуляционные стадии могут требовать интенсивных
вычислений
• Новые возможности
– Повышение надежности и скорости принятия решений
– Переход от элементарных моделей к оптимизационным и
исследовательским

Cloud
или HSC (High Scalability Computing)

• Доступность
• Масштабируемость
• Простота
• Экономия
• Надежность

Флуктуация объемов вычислений

Нехватка ресурсов
Ресурсы стандартного кластера

Неиспользуемый ресурс

ТЕХНОЛОГИИ РАЗРАБОТКИ

Несовпадения компетенций

Разработчик Предметный эксперт
• Знает как работать с • Ограниченное знание
параллельными и вычислительных
распределенными системами вычислительной
• Знает “настоящие” языки инфраструктуры
программирования • Знают высоко продуктивные
• Имеют лишь небольшое языки программирования
понимание предметной области • Знают как применять
математику и статистику

Как дать возможность предметным экспертам
эффективно работать с большими данными и
использовать большие вычислительные ресурсы?

Map/Reduce и MPI
Map/Reduce MPI

TechTalk @ Harvard Feb 2, 2012 33

Microsoft Cloud Numerics
Microsoft Cloud Numerics это платформа позволяющая
масштабировать модели анализа данных на Azure из
.Net приложения
– Простая программная модель защищающая
пользователя от сложности разработки
распределенных приложений
– Расширенный набор библиотек численных методов
способных работать с распределенными структурами
данных
– Простота развертывания приложений на Azure и
Windows HPC Server
– Дополняет и интегрируется с экосистемой Map/Reduce

TechTalk @ Harvard Feb 2, 2012 34

Сценарий обработки больших данных
Сырые данные Цель – улучшение качества поиска
патентов
Map/Reduce • Международные патенты
– 621 GB XML файлов – 19M док.
• Построение документов из
матриц
– Лексический анализ каждого файла
Обработанные данные – Усредненные результаты в
разреженных матрицах – размер
данных: несколько GB
анализ • Поиск наилучшего алгоритма
Microsoft.Numerics поиска
– Латентное Семантическое
Индексирование
– Использование Sparse SVD для
поиска общих и уникальных
Конечные материалы свойств в тексте патента
Отчеты, графики, решения

Анализ социальных сетей
Рекомендация по открытию привлекательных позиций найма на
базе анализа сети связей в социальных сетях – “В какой работе
мне наилучшим образом может помочь моя социальная сеть?”

1) Facebook / LinkedIn data O(1PB)
2) Job-posting data O(1-19GB)

Map/Reduce

Полученный граф O(60MB)
1) Социальная сеть нанимающих
руководителей
2) Моя социальная сеть

Поиск наиболее релевантного
работодателя

Архитектура “Cloud Numerics”
C# API to Runtime and Libraries Deployment

Linear Algebra
Mathematics

Time Series
Statistics

Signal
Нативный код

OSS and 3rd party Numerical Libraries

Project “Cambridge” runtime Visual Studio

Microsoft MPI

Windows Azure or Windows HPC Server

Предложение для Сколково
До 4ех XL машин в Windows Azure для тех
кто попробует использовать Cloud Numerics
в своих задачах!

Российский финал: 14 апреля 2012 г.
Регистрация: http://bit.ly/cupfinals2012 МФТИ-МГУ
Начало: 11:00 МАИ-МИЭМ
Место: Digital October, м. Кропоткинская ННГУ
Онлайн: http://www.imaginecup.ru СПбГПУ
СГТУ
ИГУ
ЮУрГУ
ТУСУР
ТГУ-ТПУ

Big data, Clouds & HPC

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (12)

Similar to Big data, Clouds & HPC

Similar to Big data, Clouds & HPC (20)

More from Andzhey Arshavskiy

More from Andzhey Arshavskiy (11)

Big data, Clouds & HPC