рассмотрим основные этапы обработки данных физики высоких энергий на примере одного из экспериментов Большого Адронного Коллайдера — LHCb; мы увидим насколько похожими оказываются решения отдельных задач LHCb на решения, используемые в Яндексе.
Предлагаемый угол зрения на проблемы физики элементарных частиц позволяет увидеть возможности, открывающиеся от взаимного расширения спектра методов и технологий, а также возможность проведении междисциплинарных исследований, способных усилить каждую из этих областей.
3. Из чего сделана наша
вселенная?
Универсальные законы?
Что такое антиматерия?
темная материя?
Как перейти от законов
микро-мира к законам
макро-мира?
…
3
Вопросы «на миллион»
4. Гипотезы → Эксперименты → Законы
4
F=ma
E=mc2
Стандартная модель
Суперсимметричная модель частиц (SUSY)?
Гравитоны?
10. A simulated SUSY event in ATLAS
10
high pT muons
high pT jets
of hadrons
p p
missing transverse energy
11. «Событие» в физике частиц (event)
Единица данных - событие (event)
Идеально, если представлено набором векторов импульсов и
набором типов частиц. минимум погрешности
На практике содержит «реконструированные» траектории,
кластеры энергии, зафиксированные калориметрами,
описывается величинами содержащими ошибки
(несовершенно!):
– разрешение датчиков
– изоляция траекторий
– углы
– …
11
13. Проверка гипотез
Глазами физика
– набор данных описывается вектором переменных (x1, x2, …, xn)
– для фона и сигнала распределения различны
– при условии, что есть событие нужно с заданной степенью достоверности (discriminating
power) сказать - является ли оно фоном или сигналом (предполагается возможность
ошибки)
Свойства решающего правила (discriminator):
– Эффективность: вероятность корректного определения сигнальных событий
– Вероятность «мисидентификации»: вероятность определить сигнал как фон
– Чистота (purity): доля правильно определенного сигнала
13
14. Глазами статистика
H0 - (null hypothesis) нулевая гипотеза (в выборке только фон)
H1 - альтернативная гипотеза (в выборке содержится сигнал + фон)
α - уровень достоверности, вероятность отклонить H1, при том, что она
истинна (ошибка первого рода)
– α = 1 - эффективность
β - вероятность отклонить H0, при том что она истинна (ошибка второго
рода)
– β = вероятность мисидентификации
14
15. События проверки гипотез
15
!
For each event we measure a set of numbers: x= (x ,…,xn ) 1
x1 = jet pT
x2 = missing energy
x3 = particle i.d. measure, ...
x follows some n-dimensional joint probability density, which
depends on the type of event produced, i.e., was it , t t pp→ … → , g ~
g ~
pp
xi
x j
E.g. hypotheses H0, H1, ...
Often simply signal (s),
background (b)
( ) 1 p x! |H
( ) 0 p x! |H
16. Выбор оптимальных ограничений
16
In particle physics usually start
by making simple cuts:
xi ci
xj cj
H1
Maybe later try some other type of decision boundary:
H0
H0 H0
H1 H1
18. Выборка событий
18
To search for events of a given type
(H0: ‘signal’), need discriminating
variable(s) distributed as differently
as possible relative to unwanted
event types (H1: ‘background’)
Count number of events in acceptance region defined by ‘cuts’
Expected number of signal events: s = !s !s L
Expected number of background events: b = ! b !b L
!s, !b = cross section for signal, background
‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b )
L = integrated luminosity (related to beam intensity, data taking time)
25. Background events
24
This event from Standard
Model ttbar production also
has high pT jets and muons,
and some missing transverse
energy.
→ can easily mimic a SUSY event.
26. 25
Analysis Value Chain
Get datasets
(Real, MC, ...)
Pre-selection
train test
Pre-processing
(e.g., add
variables)
Event
selection
cut-based
MVA-based
Counting/
fitting
Systematics
Estimation
Signifiсance
Estimation
В поисках лучшей выборки…
27. 25
Analysis Value Chain
Get datasets
(Real, MC, ...)
Pre-selection
train test
Pre-processing
(e.g., add
variables)
Event
selection
cut-based
MVA-based
Counting/
fitting
Systematics
Estimation
Signifiсance
Estimation
В поисках лучшей выборки…
28. Возможности улучшения
26
more powerful algorithms (e.g. BDT, Deep Neural
Networks)
improved features (e.g. «isolation» variables or
particle identification)
complex training scenarios (e.g. n-folding,
ensembling, blending, cascading)
https://tech.yandex.ru/education/m/shad/talks/1423/
https://tech.yandex.ru/education/m/shad/talks/1878/
29. 27
Алгоритмы, реализации
Семества алгоритмов:
– Boosted Decision Trees (BDT)
– Artificial Neural Network (ANN)
– Support Vector Machine (SVM)
– Clustering, Bayesian Networks, ...
Реализации
– TMVA (60+ algorithms)
– NeuroBayes
– python scikit-learn
– R packages
– Private (Matrixnet, predict.io)
– XGBoost, …
30. Цена точности
How do I check quality of event discriminating function?
– Overfitting?
– Correlations?
– Relevance of figure of merit to analysis significance?
How do I deal with complexity?
– Estimate influence of model parameters
– Extra computation
– Organization (cross-checks, collaboration)
28
31. Переобучение
29
If decision boundary is too flexible it will conform too closely
to the training points → overtraining.
Monitor by applying classifier to independent validation sample.
training sample independent validation sample
32. Figure-of-Merits Land
Area under ROC
Likelihood
Misclassification
False Positive, False Negative
Punzi measure
30
S pS+B , S pB
, · · ·
Efficiency flatness?
33. 31
Performance (ROC, Learning curve)
Decision Tree Overfitting Underfitting RandomForest
Training set accuracy
Test set accuracy
Number of iterations
36. Не только физика
34
Online triggers and DAQ
Offline simulation and processing
Data storage architectures
Resource management and provisioning
Networks and connectivity
Data analytics
37. Другие задачи
Оптимизация разбиения файлов по дискам и лентам
Предсказание аномалий в поведении детектора
Предсказание ресурсов/времени расчета задач
…
35
41. Источники сложности
Физика
Работа с данными
Стратегия анализа (http://bit.ly/SqDDE4)
Шаги анализа
Командное взаимодействие
39
42. Индикаторы сложности
‘Каким способом я сгененировал график 13?’
‘Новый студент хочет воспользоваться моделью,
опубликованной мной 3 года назад, но я не могу
воспроизвести ни одного графика’
‘Я думал, что использую те же параметры, но у меня
получаются другие результаты!?I’
‘Где взять события, отобранные предыдущей версией моих
скриптов?’
‘Оно работало еще вчера!’
‘Зачем я это сделал?’
40
43. Экосистема для экспериментов
Программная среда для поддержки экосистемы
совместной исследовательской работы над общими
задачами и данными, позволяющая:
выполнять численные эксперименты над большими
объемами данных
получать воспроизводимые результаты,
использовать единообразные критерии качества.
41
44. 42
Analysis
code
Intermediate
Data objects
Language
modules
Native
Libraries
Source
data/
metadata
Основные компоненты
scikit-learn
TMVA
XGBoost
Black-box
45. Заголовок (не длинней одной строки)
Текст перед кодом:
self.rsp.removeHeader(Transfer-Encoding);
43
47. Заключение Вместо заключения
совместные исследовательские работы с ЦЕРНом
развитие нового направления
практика в Яндексе
45
Bs ! μ+μ−
Bs ! 4μ
⌧ ! 3μ
B ! K⇤μ+μ−
· · ·
http://arxiv.org/abs/1410.4140v1
49. «…rejecting the background-only hypothesis in a
statistical sense is only part of discovering a new
phenomenon. One’s degree of belief that a new
process is present will depend in general on other
factors as well, such as the plausibility of the new
signal hypothesis and the degree to which it can
describe the data. Here, however, we only consider
the task of determining the p-value of the
background-only hypothesis; if it is found below a
specified threshold, we regard this as “discovery”»
47 From Cowan et al., EPJC71(2011) 1554