I gave this prsentation for the Open Skolkovo University on Aprtil 10. It covers the modern trades we see in intensive computations with Big Data in Clouds and describes the technology and skills gap which pitfalls Big Data analysis revolution. Presentation is also describes how new Microsoft porduct that has been partly developed in Russia (Cloud Numerics) could adress those gaps
Chronological Decomposition Heuristic: A Temporal Divide-and-Conquer Strateg...Alkis Vazacopoulos
The chronological decomposition heuristic (CDH) is a simple divide-and-conquer strategy intended to find rapidly, integer-feasible solutions to production scheduling optimization problems of practical scale. It is not an exact algorithm in that it will not find the global optimum although it does use either branch-and-bound or branch-and-cut. The CDH is specifically designed for production scheduling optimization problems which are formulated using a uniform discretization of time where a time grid is pre-specified with fixed time-period spacing. The basic premise of the CDH is to slice the scheduling time horizon into aggregate time-intervals or “time-chunks” which are some multiple of the base time-period. Each time-chunk is solved using mixed-integer linear programming (MILP) techniques starting from the first time-chunk and moving forward in time using the technique of chronological backtracking if required (Marriott and Stuckey, 1998; for more details see the extensive literature on constraint logic programming). The efficiency of the heuristic is that it decomposes the temporal dimension into smaller size time-chunks which are solved in succession instead of solving one large problem over the entire scheduling horizon. The basic idea of such a decomposition strategy was partially presented in Bassett et. al. (1996) whereby they provided a hierarchical interaction or collaboration between a planning layer and a temporally decomposed scheduling layer. For the CDH, we focus on the time-based decomposition of the scheduling layer without the need for a higher-level coordinating or planning layer.
For many industrial size problems, solving the MILP using commercial branch-and-bound or branch-and-cut optimization can be a somewhat futile exercise even for well-formulated problems of practical interest. Instead, many researchers such as Kudva et. al. (1994), Wolsey (1998), Nott and Lee (1999), Blomer and Gunther (2000) and Kelly (2002) have devised elaborate primal heuristic techniques to enable the solution of problems of large scale and complexity; these techniques can also be augmented by other decomposition strategies such as Lagrangean and Bender’s relaxation. Unfortunately with these heuristics global optimality or even global feasibility cannot be guaranteed, however these methods and others not mentioned, have proven useful for problems which are sometimes too large to be solved using conventional methods alone. Therefore, the CDH should be considered as a step in the direction of aiding the scheduling user in finding integer-feasible solutions of reasonable quality quickly.
Chronological Decomposition Heuristic: A Temporal Divide-and-Conquer Strateg...Alkis Vazacopoulos
The chronological decomposition heuristic (CDH) is a simple divide-and-conquer strategy intended to find rapidly, integer-feasible solutions to production scheduling optimization problems of practical scale. It is not an exact algorithm in that it will not find the global optimum although it does use either branch-and-bound or branch-and-cut. The CDH is specifically designed for production scheduling optimization problems which are formulated using a uniform discretization of time where a time grid is pre-specified with fixed time-period spacing. The basic premise of the CDH is to slice the scheduling time horizon into aggregate time-intervals or “time-chunks” which are some multiple of the base time-period. Each time-chunk is solved using mixed-integer linear programming (MILP) techniques starting from the first time-chunk and moving forward in time using the technique of chronological backtracking if required (Marriott and Stuckey, 1998; for more details see the extensive literature on constraint logic programming). The efficiency of the heuristic is that it decomposes the temporal dimension into smaller size time-chunks which are solved in succession instead of solving one large problem over the entire scheduling horizon. The basic idea of such a decomposition strategy was partially presented in Bassett et. al. (1996) whereby they provided a hierarchical interaction or collaboration between a planning layer and a temporally decomposed scheduling layer. For the CDH, we focus on the time-based decomposition of the scheduling layer without the need for a higher-level coordinating or planning layer.
For many industrial size problems, solving the MILP using commercial branch-and-bound or branch-and-cut optimization can be a somewhat futile exercise even for well-formulated problems of practical interest. Instead, many researchers such as Kudva et. al. (1994), Wolsey (1998), Nott and Lee (1999), Blomer and Gunther (2000) and Kelly (2002) have devised elaborate primal heuristic techniques to enable the solution of problems of large scale and complexity; these techniques can also be augmented by other decomposition strategies such as Lagrangean and Bender’s relaxation. Unfortunately with these heuristics global optimality or even global feasibility cannot be guaranteed, however these methods and others not mentioned, have proven useful for problems which are sometimes too large to be solved using conventional methods alone. Therefore, the CDH should be considered as a step in the direction of aiding the scheduling user in finding integer-feasible solutions of reasonable quality quickly.
Лекция, продолжающая разбор профессии аналитика для начинающих. На этот раз тема более сложная, затрагивающая саму суть анализа: работу по превращению информации в знания. Как в море разрозненных букв и цифр выбрать те, что нужны и полезны именно здесь и сейчас? Как преподнести результаты своей работы другим, чтобы это было наглядно и информативно?
Лекция, продолжающая разбор профессии аналитика для начинающих. На этот раз тема более сложная, затрагивающая саму суть анализа: работу по превращению информации в знания. Как в море разрозненных букв и цифр выбрать те, что нужны и полезны именно здесь и сейчас? Как преподнести результаты своей работы другим, чтобы это было наглядно и информативно?
Big Data - что это и с чем его "едят") Откуда взялся термин Big Data, какое содержание он в себе несет, и, есть ли будущее у тренда Big Data. Изучаем...
DSL is the research & development organization that builds smart solutions for information personalization, search and filtration of social information, which connects math, information technologies, big data and digital humilities or digital sociology.
Applying bleeding edge technologies of data analysis and big data processing we are building solutions for the digital marketing of the next stage, RTB systems, social search and social scoring tools.
Лаборатория Цифрового Общества (DSL) - Российская независимая частная исследовательская компания, специализирующаяся на проведении академических исследований в социальных сетях и в интернете в целом. Лаборатория обладает уникальным составом исследователей и аналитиков, сотрудничает с ведущими мировыми экспертами США и Европы.
DSL создает инновационные решения для цифрового маркетинга, персонализации информации и социального поиска в Интернет и Социальных Медиа. DSL использует последние достижения в науке и технологиях анализа данных, Big Data, математики и социологии.
WHAT IS BIG DATA? AND HOW IT APPLIED IN MODERN MARKETINGAndzhey Arshavskiy
Что такое Большие Данные? Где лежит та грань, что отделяет большие данные от обычных? Является ли размер данных, скорость их поступления или разнообразие форматов критерием их дифференцирующим? Как применяются технологии Больших Данных в современном маркетинге?
1. Управление в меняющемся мире
Большие данные, облака и
вычисления
Microsoft, Анджей Аршавский
andzhey@microsoft.com
2. Business is a dogfight.
Your job as a leader:
Outmaneuver the competition, respond
decisively to fast-changing conditions, and
defeat your rivals. That's why the OODA loop,
the brainchild of "40 Second" Boyd, an
unconventional fighter pilot, is one of today's
most important ideas in battle or in business.
Keith Hammonds, “The Strategy of the Fighter Pilot,” Fast
Company, June 2002.
3. Цикл Бойда
Наблюдение Ориентация Решение Действие
Явное Неявное
Наблюдение управление & Культ .
управление
событий контроль традиции & контроль
наследие Анализ и
Наблюдения Решения Действие
синтез
(Гипотезы) (тест)
Новая
информация Прошлый
Внешняя опыт Раскрытие
информация взаимодейст
вий со
Измерение
средой
взаимодейст ос
вия с
окружением ос
Заметьте, как ориентация влияет на наблюдение, решения и действия и все это влияет через
обратную связь на следующие итерации наблюдения, позволяя новым феноменам попадать в
поле зрения системы.
Также отметьте как весь цикл является непрекращающимся многосторонним неявным
многосвязным процессом ориентации, фокусировки, корреляции и фильтрации.
From “The Essence of Winning and Losing,” John R. Boyd, January 1996
“Organic Design for Command and Control”, Boyd .
4. Знания из данных для OODA цикла
1. Наблюдение 2. Гипотеза Observe
Act OODA Orient
Decide
4. Проверка 3. Предсказание
4ая парадигма Data
науки:
Knowledge
Validate Analytics Model
Info
Data
Predict
6. НАУКА
В 2000 телескоп Sloan Digital Sky Survey за первую
неделю работы собрал больше данных чем было
накоплено за всю историю астрономии
К 2016 новый телескоп Large Synoptic Survey в Китае
планирует собрать 140 терабайт за первые 5 дней –
больше чем собрал Sloan за 10 лет
LHC в CERN получает 40 терабайт данных за секунду
7. БИЗНЕС
Интернет
Социальные сети
Транзакции
CRM
Датчики/Камеры/RFID/…
8. Больше, больше и еще больше….
• 1 EB = 10^18 байт = 1000000 терабайт
• 1 ZB = 10^21 байт
• 1.2 ZB новых байт информации в 2010
Источник: IDC, as reported in The Economist, Feb 25, 2010
• Более 1.8 ZB в 2011
• 120 петабайт: IBM строит крупнейшее хранилище данных (Август 2011)
• 2TB Cloud Storage: £10: www.livedrive.com
• К 2013, ежегодный IP трафик достигнет 667 EB. Интернет видео
– 18 EB в месяц. Мобильный трафик -2 EB в месяц
• Facebook перенес 30 PB на Hadoop (Jul. 27, 2011)
• Источники разнообразны
– Сенсоры, crawler-ы, устройства,
приложения, документы
– ERP, CRM, PLM, HRM, LOB
• Хранение данных стоит почти $0.00
– Хранение сырых данных
– Можно экспериментировать с аналитикой
9.
10. Big Data = 3V
• Volume
• Velocity
• Variety
"...data that is too large to process and manage using
conventional database management technologies. Big
data has numerous attributes in addition to its large size,
including it is typically unstructured and often dispersed.“
-David Valante
11. Озера данных
Единый источник
Большой объем
Неочищенный резервуар
Может быть исследован
Есть 0-2 озера на компанию Источники данных:
Не вмещаются в традиционные RDBMS
Содержат известные и неизвестные Transactional
ответы Financial
retail
Non Transactional
Web pages, blogs…
Documents
Physical events
Applications events
Machine events
12. Чтобы лучше понять свой бизнес
Исследования IDC:
“In 2012 a healthy chunk of IT spending -- as
much as 20%, -- will be driven by a handful of
technologies that are reshaping the IT industry”:
• smartphones
• media tablets
• mobile networks
• social networking
• big data analytics
13. Использование Big Data
• Финансы (risk management, real time
trades)
• Здравоохранение
• Розничная торговля
• Подразделения продаж
14. Data
preprocessing
Структура подходов к анализу данных
Cleaning
Data Integration Predictive analysis
Data reduction • Regressions, Classifications
Data Mining • To get model from data
• Class/Concept detection • Neural networks
• Finding Patterns, associations, correlations • Statistics
• Regressions Descriptive analysis
• Cluster Analysis • Look at data thru different angles
• Outliner Analysis • Distribution shapes, trends, …
Prescriptive analysis
Outliners-> Anomaly Detection
• Decision making models
• Rare Class Mining
• Optimization
• Chance discovery
• Simulation
• Novelty Detection
• Exception Mining
• Noise Removal Application Examples
• Black Swan • Load forecasting
• Diagnosis
Applications of Anomaly Detection • Marketing and Sales
Network intrusion detection • Behavior prediction
Insurance / Credit card fraud detection • Market prediction
Healthcare Informatics / Medical diagnostics • Engineering
Industrial Damage Detection • Finance
Fraud Detection • Failure management
Image Processing / Video surveillance • Consumption demand
Novel Topic Detection in Text Mining
15. Новые направления Machine Learning
• Распознавание речи
• Компьютерное зрение
• Bio-surveillance
• Robot control
• Ускорение эмпирической науки
16. Традиционный HPC
эргономика
тепло
• Моделирование объектов и процессов
• Высокая стоимость оборудования
• Требует редких умений для разработки ПО нефть
• От разработки новых Hi-Tech решений к принятию
повседневных бизнес решений
Геном, медицина, лекарства
Фильмы
CFD
SPI Planning
Материаловедение
17. HPC для всех?
Вычислительные ресурсы
1M 80%
14M 20%
Полное отсутствие или
70M
55M ограниченность доступа к
ресурсам high performance
data-intensive
Ученные & Инженеры
18. Стоимость вычислений
$3 billion per Genome
$3,000,000,000
$60,000,000
$1,000,000
$48,000 $45,000 per Genome
$10,000
$2,500 $500-$10,000 per Genome
$500
$100 $100 per Genome?
20. Закон Мура жив
1.E+07
1.E+06
1.E+05
Transistors (in
1.E+04 thousands)
1.E+03
Frequency
1.E+02 (MHz)
1.E+01
Cores
1.E+00
1.E-01
1970 1980 1990 2000 2010
…a hardware issue just became a software problem
“The era of single processor systems is over; the multi- and many-core systems
world is here. If you're not ready for this change, there's an IT train wreck in your
future. - HPC Wire
21. Big Data & HPC
• Big Data увеличивает спрос на распределённые
вычисления
– noSQL, Map/Reduce, MPI, …
– Desktop более не могут быть бутылочным горлом
• Предпосылки для больших вычислений
– Big Data, Регуляция, Симуляция
• Симуляция может генерировать Big Data
• Пре и пост симуляционные стадии могут требовать интенсивных
вычислений
• Новые возможности
– Повышение надежности и скорости принятия решений
– Переход от элементарных моделей к оптимизационным и
исследовательским
28. Несовпадения компетенций
Разработчик Предметный эксперт
• Знает как работать с • Ограниченное знание
параллельными и вычислительных
распределенными системами вычислительной
• Знает “настоящие” языки инфраструктуры
программирования • Знают высоко продуктивные
• Имеют лишь небольшое языки программирования
понимание предметной области • Знают как применять
математику и статистику
Как дать возможность предметным экспертам
эффективно работать с большими данными и
использовать большие вычислительные ресурсы?
34. Microsoft Cloud Numerics
Microsoft Cloud Numerics это платформа позволяющая
масштабировать модели анализа данных на Azure из
.Net приложения
– Простая программная модель защищающая
пользователя от сложности разработки
распределенных приложений
– Расширенный набор библиотек численных методов
способных работать с распределенными структурами
данных
– Простота развертывания приложений на Azure и
Windows HPC Server
– Дополняет и интегрируется с экосистемой Map/Reduce
TechTalk @ Harvard Feb 2, 2012 34
35. Сценарий обработки больших данных
Сырые данные Цель – улучшение качества поиска
патентов
Map/Reduce • Международные патенты
– 621 GB XML файлов – 19M док.
• Построение документов из
матриц
– Лексический анализ каждого файла
Обработанные данные – Усредненные результаты в
разреженных матрицах – размер
данных: несколько GB
анализ • Поиск наилучшего алгоритма
Microsoft.Numerics поиска
– Латентное Семантическое
Индексирование
– Использование Sparse SVD для
поиска общих и уникальных
Конечные материалы свойств в тексте патента
Отчеты, графики, решения
36. Анализ социальных сетей
Рекомендация по открытию привлекательных позиций найма на
базе анализа сети связей в социальных сетях – “В какой работе
мне наилучшим образом может помочь моя социальная сеть?”
1) Facebook / LinkedIn data O(1PB)
2) Job-posting data O(1-19GB)
Map/Reduce
Полученный граф O(60MB)
1) Социальная сеть нанимающих
руководителей
2) Моя социальная сеть
Поиск наиболее релевантного
работодателя
37. Архитектура “Cloud Numerics”
C# API to Runtime and Libraries Deployment
Linear Algebra
Mathematics
Time Series
Statistics
Signal
Нативный код
OSS and 3rd party Numerical Libraries
Project “Cambridge” runtime Visual Studio
Microsoft MPI
Windows Azure or Windows HPC Server
38. Предложение для Сколково
До 4ех XL машин в Windows Azure для тех
кто попробует использовать Cloud Numerics
в своих задачах!
39. Российский финал: 14 апреля 2012 г.
Регистрация: http://bit.ly/cupfinals2012 МФТИ-МГУ
Начало: 11:00 МАИ-МИЭМ
Место: Digital October, м. Кропоткинская ННГУ
Онлайн: http://www.imaginecup.ru СПбГПУ
СГТУ
ИГУ
ЮУрГУ
ТУСУР
ТГУ-ТПУ