Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Обработка 
больших данных 
БАК 
Андрей Устюжанин 
18 октября 2014
Из чего сделана наша 
вселенная? 
Универсальные законы? 
Что такое антиматерия? 
темная материя? 
Как происходит переход о...
Гипотезы => Эксперименты => Законы 
3 
F=ma 
E=mc2 
Стандартная модель 
Суперсимметричная модель частиц 
Гравитоны?
Экспериментальная наука «тогда» 
4
Эксперименты «сегодня» 
5
Открытие бозона Хиггса 
6
Заголовок (не длинней одной строки) 
7
Заголовок (не длинней одной строки) 
8
Заголовок (не длинней одной строки) 
9
A simulated SUSY event in ATLAS 
10 
high pT muons 
high pT jets 
of hadrons 
p p 
missing transverse energy
Background events 
11 
This event from Standard 
Model ttbar production also 
has high pT jets and muons, 
and some missin...
Event (событие) 
12 
Basic unit of data: an ‘event’. 
Ideally, an event is a list of momentum vectors & 
particle types. 
...
«In Monte-Carlo we trust!» 
13
14 
Генерация событий 
1 событие - 150 Kb 
1 год ~ 10 Pb
Выбор событий для проверки гипотез 
15 
! 
For each event we measure a set of numbers: x= (x ,…,xn ) 1 
x1 = jet pT 
x2 = ...
Выбор оптимальных ограничений 
16 
In particle physics usually start 
by making simple cuts: 
xi  ci 
xj  cj 
H1 
Maybe la...
Выборка событий 
17 
To search for events of a given type 
(H0: ‘signal’), need discriminating 
variable(s) distributed as...
Фоновые события 
18 
Count n events, e.g., in fixed time or integrated luminosity. 
s = expected number of signal events 
...
Открытия 
19 
Often compute p-value of the ‘background only’ hypothesis H0 
using test variable related to a characteristi...
20 
Analysis Value Chain 
Get datasets 
(Real, MC, ...) 
Pre-selection 
train test 
Pre-processing 
(e.g., add 
variables)...
Возможности улучшения 
21 
more powerful algorithms (e.g. BDT, Deep Neural 
Networks) 
improved features (e.g. «isolation»...
Возможности улучшения 
22 
more powerful algorithms (e.g. BDT, Deep Neural 
Networks) 
improved features (e.g. «isolation»...
23 
Performance (ROC, Learning curve) 
Decision Tree Overfitting Underfitting RandomForest 
Training set accuracy 
Test se...
24 
Алгоритмы, реализации 
Families: 
– Boosted Decision Trees (BDT) 
– Artificial Neural Network (ANN) 
– Support Vector ...
Price for sensitivity 
How do I check quality of event discriminating function? 
– Overfitting? 
– Correlations? 
– Releva...
Переобучение 
26 
If decision boundary is too flexible it will conform too closely 
to the training points → overtraining....
Figure-of-Merits Land 
Area under ROC 
Likelihood 
Misclassification 
False Positive, False Negative 
Punzi measure 
27 
S...
28
Не только физика 
29 
Online triggers and DAQ 
Offline simulation and processing 
Data storage architectures 
Resource man...
Skynet
Использование ресурсов GRID
«Узкие» места GRID 
Сложность (высокая стоимость) 
перенастройки 
Фиксированные настройки окружения 
Дорогое масштабирован...
Облачные технологии 
Предоставление вычислительной инфраструктуры как 
сервиса 
Виртуализация аппаратных ресурсов 
Динамич...
Облачные технологии 
38 
Applica'ons+Run+Na'vely+in#Hadoop+ 
YARN+(Cluster*Resource*Management)*** 
HDFS2+(Redundant,*Reli...
YARN 
39
Docker 
40
Пример Panda  ATLAS (http://bit.ly/UtlQxM) 
41
Примеры задач 
Симуляция событий (MC) 
Поиск реальных и MC-событий 
Онлайн анализ 
Офлайн анализ 
Сохранение данных (интер...
Анализ данных
Индикаторы сложности 
‘Каким способом я сгененировал график 13?’ 
‘Новый студент хочет воспользоваться моделью, 
опубликов...
Источники сложности 
Физика 
Работа с данными 
Стратегия анализа (http://bit.ly/SqDDE4) 
Шаги анализа 
Командное взаимодей...
Экосистема для экспериментов 
Программная среда для поддержки экосистемы 
совместной исследовательской работы над общими 
...
ROOT 
PyROOT 
Plotly, 
D3s 
Matplotlib 
SciKit-Learn 
EF Python 
Wrapper 
! 
! 
! 
! 
! 
EF0 
47 
MN 
…
Основные компоненты 
48
Заголовок (не длинней одной строки) 
Текст перед кодом: 
self.rsp.removeHeader(Transfer-Encoding); 
49
Заключение 
50
Заключение Вместо заключения 
совместные исследовательские работы с ЦЕРНом 
развитие нового направления 
практика в Яндекс...
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера
Upcoming SlideShare
Loading in …5
×

Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

636 views

Published on

  • Be the first to comment

Андрей Устюжанин - Технологии обработки данных из Большого адронного коллайдера

  1. 1. Обработка больших данных БАК Андрей Устюжанин 18 октября 2014
  2. 2. Из чего сделана наша вселенная? Универсальные законы? Что такое антиматерия? темная материя? Как происходит переход от законов микро-мира к законам макро-мира? … 2 Вопросы «на миллион»
  3. 3. Гипотезы => Эксперименты => Законы 3 F=ma E=mc2 Стандартная модель Суперсимметричная модель частиц Гравитоны?
  4. 4. Экспериментальная наука «тогда» 4
  5. 5. Эксперименты «сегодня» 5
  6. 6. Открытие бозона Хиггса 6
  7. 7. Заголовок (не длинней одной строки) 7
  8. 8. Заголовок (не длинней одной строки) 8
  9. 9. Заголовок (не длинней одной строки) 9
  10. 10. A simulated SUSY event in ATLAS 10 high pT muons high pT jets of hadrons p p missing transverse energy
  11. 11. Background events 11 This event from Standard Model ttbar production also has high pT jets and muons, and some missing transverse energy. → can easily mimic a SUSY event.
  12. 12. Event (событие) 12 Basic unit of data: an ‘event’. Ideally, an event is a list of momentum vectors & particle types. In practice, particles ‘reconstructed’ as tracks, clusters of energy, deposited in calorimeters, etc. Resolution, angular coverage, particle id, etc. imperfect.
  13. 13. «In Monte-Carlo we trust!» 13
  14. 14. 14 Генерация событий 1 событие - 150 Kb 1 год ~ 10 Pb
  15. 15. Выбор событий для проверки гипотез 15 ! For each event we measure a set of numbers: x= (x ,…,xn ) 1 x1 = jet pT x2 = missing energy x3 = particle i.d. measure, ... x follows some n-dimensional joint probability density, which depends on the type of event produced, i.e., was it , t t pp→ … → , g ~ g ~ pp xi x j E.g. hypotheses H0, H1, ... Often simply signal (s), background (b) ( ) 1 p x! |H ( ) 0 p x! |H
  16. 16. Выбор оптимальных ограничений 16 In particle physics usually start by making simple cuts: xi ci xj cj H1 Maybe later try some other type of decision boundary: H0 H0 H0 H1 H1
  17. 17. Выборка событий 17 To search for events of a given type (H0: ‘signal’), need discriminating variable(s) distributed as differently as possible relative to unwanted event types (H1: ‘background’) Count number of events in acceptance region defined by ‘cuts’ Expected number of signal events: s = !s !s L Expected number of background events: b = ! b !b L !s, !b = cross section for signal, background ‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b ) L = integrated luminosity (related to beam intensity, data taking time)
  18. 18. Фоновые события 18 Count n events, e.g., in fixed time or integrated luminosity. s = expected number of signal events b = expected number of background events n ~ Poisson(s+b): Sometimes b known, other times it is in some way uncertain. Goals: (i) convince people that s ≠ 0 (discovery); (ii) measure or place limits on s, taking into consideration the uncertainty in b. Widely discussed in HEP community, see e.g. proceedings of PHYSTAT meetings, Durham, Fermilab, CERN workshops...
  19. 19. Открытия 19 Often compute p-value of the ‘background only’ hypothesis H0 using test variable related to a characteristic of the signal. p-value = Probability to see data as incompatible with H0, or more so, relative to the data observed. Requires definition of ‘incompatible with H0’ HEP folklore: claim discovery if p-value equivalent to a 5! fluctuation of Gaussian variable (one-sided) Actual p-value at which discovery becomes believable will depend on signal in question (subjective) Why not do Bayesian analysis? Usually don’t know how to assign meaningful prior probabilities подробнее на http://www.pp.rhul.ac.uk/~cowan
  20. 20. 20 Analysis Value Chain Get datasets (Real, MC, ...) Pre-selection train test Pre-processing (e.g., add variables) Event selection cut-based MVA-based Counting/ fitting Systematics Estimation Signifiсance Estimation В поисках лучшей выборки…
  21. 21. Возможности улучшения 21 more powerful algorithms (e.g. BDT, Deep Neural Networks) improved features (e.g. «isolation» variables or particle identification) complex training scenarios (e.g. n-folding, ensembling, blending, cascading) Саша Фонарёв: https://tech.yandex.ru/education/m/shad/talks/1423/ Максим Мусин: https://tech.yandex.ru/education/m/shad/talks/1878/
  22. 22. Возможности улучшения 22 more powerful algorithms (e.g. BDT, Deep Neural Networks) improved features (e.g. «isolation» variables or particle identification) complex training scenarios (e.g. n-folding, ensembling, blending, cascading) Саша Фонарёв: https://tech.yandex.ru/education/m/shad/talks/1423/ Максим Мусин: https://tech.yandex.ru/education/m/shad/talks/1878/
  23. 23. 23 Performance (ROC, Learning curve) Decision Tree Overfitting Underfitting RandomForest Training set accuracy Test set accuracy Number of iterations
  24. 24. 24 Алгоритмы, реализации Families: – Boosted Decision Trees (BDT) – Artificial Neural Network (ANN) – Support Vector Machine (SVM) – Clustering, Bayesian Networks, ... Implementations – TMVA (60+ algorithms) – NeuroBayes – python scikit-learn – R packages – Private (Matrixnet, predict.io) – XGBoost, …
  25. 25. Price for sensitivity How do I check quality of event discriminating function? – Overfitting? – Correlations? – Relevance of figure of merit to analysis significance? How do I deal with complexity? – Estimate influence of model parameters – Extra computation – Organization (cross-checks, collaboration) 25
  26. 26. Переобучение 26 If decision boundary is too flexible it will conform too closely to the training points → overtraining. Monitor by applying classifier to independent validation sample. training sample independent validation sample
  27. 27. Figure-of-Merits Land Area under ROC Likelihood Misclassification False Positive, False Negative Punzi measure 27 S pS+B , S pB , · · · Efficiency flatness?
  28. 28. 28
  29. 29. Не только физика 29 Online triggers and DAQ Offline simulation and processing Data storage architectures Resource management and provisioning Networks and connectivity Data analytics
  30. 30. Skynet
  31. 31. Использование ресурсов GRID
  32. 32. «Узкие» места GRID Сложность (высокая стоимость) перенастройки Фиксированные настройки окружения Дорогое масштабирование Опалата времени, а не фактических вычислений 36
  33. 33. Облачные технологии Предоставление вычислительной инфраструктуры как сервиса Виртуализация аппаратных ресурсов Динамическое выделение ресурсов под конкретные нужды Оплата только за фактическое использование Широка поддержка open-source commercial (Amazon EC2, Rackspace OpenStack, T-Systems, Helix Nebula, …) 37
  34. 34. Облачные технологии 38 Applica'ons+Run+Na'vely+in#Hadoop+ YARN+(Cluster*Resource*Management)*** HDFS2+(Redundant,*Reliable*Storage)* BATCH+ (MapReduce)+ INTERACTIVE+ (Tez)+ STREAMING+ (Storm,+S4,…)+ GRAPH+ (Giraph)+ INLMEMORY+ (Spark)+ HPC+MPI+ (OpenMPI)+ ONLINE+ (HBase)+ OTHER+ (Search)+ (Weave…)+ …
  35. 35. YARN 39
  36. 36. Docker 40
  37. 37. Пример Panda ATLAS (http://bit.ly/UtlQxM) 41
  38. 38. Примеры задач Симуляция событий (MC) Поиск реальных и MC-событий Онлайн анализ Офлайн анализ Сохранение данных (интерфейс доступа) Сохранение кода и структуры анализа 42
  39. 39. Анализ данных
  40. 40. Индикаторы сложности ‘Каким способом я сгененировал график 13?’ ‘Новый студент хочет воспользоваться моделью, опубликованной мной 3 года назад, но я не могу воспроизвести ни одного графика’ ‘Я думал, что использую те же параметры, но у меня получаются другие результаты!?I’ ‘Где взять события, отобранные предыдущей версией моих скриптов?’ ‘Оно работало еще вчера!’ ‘Зачем я это сделал?’ 44
  41. 41. Источники сложности Физика Работа с данными Стратегия анализа (http://bit.ly/SqDDE4) Шаги анализа Командное взаимодействие 45
  42. 42. Экосистема для экспериментов Программная среда для поддержки экосистемы совместной исследовательской работы над общими задачами, позволяющая: выполнять численные эксперименты над большими объемами данных получать воспроизводимые результаты, использовать единообразные критерии качества. 46
  43. 43. ROOT PyROOT Plotly, D3s Matplotlib SciKit-Learn EF Python Wrapper ! ! ! ! ! EF0 47 MN …
  44. 44. Основные компоненты 48
  45. 45. Заголовок (не длинней одной строки) Текст перед кодом: self.rsp.removeHeader(Transfer-Encoding); 49
  46. 46. Заключение 50
  47. 47. Заключение Вместо заключения совместные исследовательские работы с ЦЕРНом развитие нового направления практика в Яндексе anaderi@yandex-team.ru 51 Bs ! μ+μ− Bs ! 4μ ⌧ ! 3μ B ! K⇤μ+μ− · · · http://arxiv.org/abs/1410.4140v1

×