Методы машинного обучения в физике элементарных частиц

Методы машинного
обучения в физике
элементарных частиц
Андрей Устюжанин
27 октября 2014

Из чего сделана наша
вселенная?
Универсальные законы?
Что такое антиматерия?
темная материя?
Как перейти от законов
микро-мира к законам
макро-мира?
…
3
Вопросы «на миллион»

Гипотезы → Эксперименты → Законы
4
F=ma
E=mc2
Стандартная модель
Суперсимметричная модель частиц (SUSY)?
Гравитоны?

Экспериментальная наука «тогда»
5

Эксперименты «сегодня»
6

Эксперименты и ускорители в ЦЕРНе
7

Детекторы экспериментов
8

Заголовок (не длинней одной строки)
9

A simulated SUSY event in ATLAS
10
high pT muons
high pT jets
of hadrons
p p
missing transverse energy

«Событие» в физике частиц (event)
Единица данных - событие (event)
Идеально, если представлено набором векторов импульсов и
набором типов частиц. минимум погрешности
На практике содержит «реконструированные» траектории,
кластеры энергии, зафиксированные калориметрами,
описывается величинами содержащими ошибки
(несовершенно!):
– разрешение датчиков
– изоляция траекторий
– углы
– …
11

12
Генерация событий
1 событие - 150 Kb
1 год ~ 10 Pb

Проверка гипотез
Глазами физика
– набор данных описывается вектором переменных (x1, x2, …, xn)
– для фона и сигнала распределения различны
– при условии, что есть событие нужно с заданной степенью достоверности (discriminating
power) сказать - является ли оно фоном или сигналом (предполагается возможность
ошибки)
Свойства решающего правила (discriminator):
– Эффективность: вероятность корректного определения сигнальных событий
– Вероятность «мисидентификации»: вероятность определить сигнал как фон
– Чистота (purity): доля правильно определенного сигнала
13

Глазами статистика
H0 - (null hypothesis) нулевая гипотеза (в выборке только фон)
H1 - альтернативная гипотеза (в выборке содержится сигнал + фон)
α - уровень достоверности, вероятность отклонить H1, при том, что она
истинна (ошибка первого рода)
– α = 1 - эффективность
β - вероятность отклонить H0, при том что она истинна (ошибка второго
рода)
– β = вероятность мисидентификации
14

События проверки гипотез
15
!
For each event we measure a set of numbers: x= (x ,…,xn ) 1
x1 = jet pT
x2 = missing energy
x3 = particle i.d. measure, ...
x follows some n-dimensional joint probability density, which
depends on the type of event produced, i.e., was it , t t pp→ … → , g ~
g ~
pp
xi
x j
E.g. hypotheses H0, H1, ...
Often simply signal (s),
background (b)
( ) 1 p x! |H
( ) 0 p x! |H

Выбор оптимальных ограничений
16
In particle physics usually start
by making simple cuts:
xi ci
xj cj
H1
Maybe later try some other type of decision boundary:
H0
H0 H0
H1 H1

Разделение по переменным
17

Выборка событий
18
To search for events of a given type
(H0: ‘signal’), need discriminating
variable(s) distributed as differently
as possible relative to unwanted
event types (H1: ‘background’)
Count number of events in acceptance region defined by ‘cuts’
Expected number of signal events: s = !s !s L
Expected number of background events: b = ! b !b L
!s, !b = cross section for signal, background
‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b )
L = integrated luminosity (related to beam intensity, data taking time)

Открытие бозона Хиггса
19

Лемма Неймана-Пирсона
20

Статистическая значимость гипотезы
22
подробности:
http://www.pp.rhul.ac.uk/~cowan
http://bit.ly/1tZlZci

«In Monte-Carlo we trust!»
23

Background events
24
This event from Standard
Model ttbar production also
has high pT jets and muons,
and some missing transverse
energy.
→ can easily mimic a SUSY event.

25
Analysis Value Chain
Get datasets
(Real, MC, ...)
Pre-selection
train test
Pre-processing
(e.g., add
variables)
Event
selection
cut-based
MVA-based
Counting/
fitting
Systematics
Estimation
Signifiсance
Estimation
В поисках лучшей выборки…

Возможности улучшения
26
more powerful algorithms (e.g. BDT, Deep Neural
Networks)
improved features (e.g. «isolation» variables or
particle identification)
complex training scenarios (e.g. n-folding,
ensembling, blending, cascading)
https://tech.yandex.ru/education/m/shad/talks/1423/
https://tech.yandex.ru/education/m/shad/talks/1878/

27
Алгоритмы, реализации
Семества алгоритмов:
– Boosted Decision Trees (BDT)
– Artificial Neural Network (ANN)
– Support Vector Machine (SVM)
– Clustering, Bayesian Networks, ...
Реализации
– TMVA (60+ algorithms)
– NeuroBayes
– python scikit-learn
– R packages
– Private (Matrixnet, predict.io)
– XGBoost, …

Цена точности
How do I check quality of event discriminating function?
– Overfitting?
– Correlations?
– Relevance of figure of merit to analysis significance?
How do I deal with complexity?
– Estimate influence of model parameters
– Extra computation
– Organization (cross-checks, collaboration)
28

Переобучение
29
If decision boundary is too flexible it will conform too closely
to the training points → overtraining.
Monitor by applying classifier to independent validation sample.
training sample independent validation sample

Figure-of-Merits Land
Area under ROC
Likelihood
Misclassification
False Positive, False Negative
Punzi measure
30
S pS+B , S pB
, · · ·
Efficiency flatness?

31
Performance (ROC, Learning curve)
Decision Tree Overfitting Underfitting RandomForest
Training set accuracy
Test set accuracy
Number of iterations

Не только физика

Не только физика
34
Online triggers and DAQ
Offline simulation and processing
Data storage architectures
Resource management and provisioning
Networks and connectivity
Data analytics

Другие задачи
Оптимизация разбиения файлов по дискам и лентам
Предсказание аномалий в поведении детектора
Предсказание ресурсов/времени расчета задач
…
35

Классификатор без корреляций
36 http://arxiv.org/abs/1410.4140v1

Определение равномерности
37 http://arxiv.org/abs/1410.4140v1

Воспроизводимость
эксперимента

Источники сложности
Физика
Работа с данными
Стратегия анализа (http://bit.ly/SqDDE4)
Шаги анализа
Командное взаимодействие
39

Индикаторы сложности
‘Каким способом я сгененировал график 13?’
‘Новый студент хочет воспользоваться моделью,
опубликованной мной 3 года назад, но я не могу
воспроизвести ни одного графика’
‘Я думал, что использую те же параметры, но у меня
получаются другие результаты!?I’
‘Где взять события, отобранные предыдущей версией моих
скриптов?’
‘Оно работало еще вчера!’
‘Зачем я это сделал?’
40

Экосистема для экспериментов
Программная среда для поддержки экосистемы
совместной исследовательской работы над общими
задачами и данными, позволяющая:
выполнять численные эксперименты над большими
объемами данных
получать воспроизводимые результаты,
использовать единообразные критерии качества.
41

42
Analysis
code
Intermediate
Data objects
Language
modules
Native
Libraries
Source
data/
metadata
Основные компоненты
scikit-learn
TMVA
XGBoost
Black-box

Заголовок (не длинней одной строки)
Текст перед кодом:
self.rsp.removeHeader(Transfer-Encoding);
43

Заключение Вместо заключения
совместные исследовательские работы с ЦЕРНом
развитие нового направления
практика в Яндексе
45
Bs ! μ+μ−
Bs ! 4μ
⌧ ! 3μ
B ! K⇤μ+μ−
· · ·
http://arxiv.org/abs/1410.4140v1

Андрей Устюжанин
Руководитель совместных
проектов Яндекс-ЦЕРН
anaderi@yandex-team.ru
Спасибо!

«…rejecting the background-only hypothesis in a
statistical sense is only part of discovering a new
phenomenon. One’s degree of belief that a new
process is present will depend in general on other
factors as well, such as the plausibility of the new
signal hypothesis and the degree to which it can
describe the data. Here, however, we only consider
the task of determining the p-value of the
background-only hypothesis; if it is found below a
specified threshold, we regard this as “discovery”»
47 From Cowan et al., EPJC71(2011) 1554

Методы машинного обучения в физике элементарных частиц

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Методы машинного обучения в физике элементарных частиц

Similar to Методы машинного обучения в физике элементарных частиц (20)

Методы машинного обучения в физике элементарных частиц