SlideShare a Scribd company logo
1 of 49
Download to read offline
Методы машинного 
обучения в физике 
элементарных частиц 
Андрей Устюжанин 
27 октября 2014
Из чего сделана наша 
вселенная? 
Универсальные законы? 
Что такое антиматерия? 
темная материя? 
Как перейти от законов 
микро-мира к законам 
макро-мира? 
… 
3 
Вопросы «на миллион»
Гипотезы → Эксперименты → Законы 
4 
F=ma 
E=mc2 
Стандартная модель 
Суперсимметричная модель частиц (SUSY)? 
Гравитоны?
Экспериментальная наука «тогда» 
5
Эксперименты «сегодня» 
6
Эксперименты и ускорители в ЦЕРНе 
7
Детекторы экспериментов 
8
Заголовок (не длинней одной строки) 
9
A simulated SUSY event in ATLAS 
10 
high pT muons 
high pT jets 
of hadrons 
p p 
missing transverse energy
«Событие» в физике частиц (event) 
Единица данных - событие (event) 
Идеально, если представлено набором векторов импульсов и 
набором типов частиц. минимум погрешности 
На практике содержит «реконструированные» траектории, 
кластеры энергии, зафиксированные калориметрами, 
описывается величинами содержащими ошибки 
(несовершенно!): 
– разрешение датчиков 
– изоляция траекторий 
– углы 
– … 
11
12 
Генерация событий 
1 событие - 150 Kb 
1 год ~ 10 Pb
Проверка гипотез 
Глазами физика 
– набор данных описывается вектором переменных (x1, x2, …, xn) 
– для фона и сигнала распределения различны 
– при условии, что есть событие нужно с заданной степенью достоверности (discriminating 
power) сказать - является ли оно фоном или сигналом (предполагается возможность 
ошибки) 
Свойства решающего правила (discriminator): 
– Эффективность: вероятность корректного определения сигнальных событий 
– Вероятность «мисидентификации»: вероятность определить сигнал как фон 
– Чистота (purity): доля правильно определенного сигнала 
13
Глазами статистика 
H0 - (null hypothesis) нулевая гипотеза (в выборке только фон) 
H1 - альтернативная гипотеза (в выборке содержится сигнал + фон) 
α - уровень достоверности, вероятность отклонить H1, при том, что она 
истинна (ошибка первого рода) 
– α = 1 - эффективность 
β - вероятность отклонить H0, при том что она истинна (ошибка второго 
рода) 
– β = вероятность мисидентификации 
14
События проверки гипотез 
15 
! 
For each event we measure a set of numbers: x= (x ,…,xn ) 1 
x1 = jet pT 
x2 = missing energy 
x3 = particle i.d. measure, ... 
x follows some n-dimensional joint probability density, which 
depends on the type of event produced, i.e., was it , t t pp→ … → , g ~ 
g ~ 
pp 
xi 
x j 
E.g. hypotheses H0, H1, ... 
Often simply signal (s), 
background (b) 
( ) 1 p x! |H 
( ) 0 p x! |H
Выбор оптимальных ограничений 
16 
In particle physics usually start 
by making simple cuts: 
xi  ci 
xj  cj 
H1 
Maybe later try some other type of decision boundary: 
H0 
H0 H0 
H1 H1
Разделение по переменным 
17
Выборка событий 
18 
To search for events of a given type 
(H0: ‘signal’), need discriminating 
variable(s) distributed as differently 
as possible relative to unwanted 
event types (H1: ‘background’) 
Count number of events in acceptance region defined by ‘cuts’ 
Expected number of signal events: s = !s !s L 
Expected number of background events: b = ! b !b L 
!s, !b = cross section for signal, background 
‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b ) 
L = integrated luminosity (related to beam intensity, data taking time)
Открытие бозона Хиггса 
19
Открытие бозона Хиггса 
19
Лемма Неймана-Пирсона 
20
Открытие?! 
21
Статистическая значимость гипотезы 
22 
подробности: 
http://www.pp.rhul.ac.uk/~cowan 
http://bit.ly/1tZlZci
«In Monte-Carlo we trust!» 
23
Background events 
24 
This event from Standard 
Model ttbar production also 
has high pT jets and muons, 
and some missing transverse 
energy. 
→ can easily mimic a SUSY event.
25 
Analysis Value Chain 
Get datasets 
(Real, MC, ...) 
Pre-selection 
train test 
Pre-processing 
(e.g., add 
variables) 
Event 
selection 
cut-based 
MVA-based 
Counting/ 
fitting 
Systematics 
Estimation 
Signifiсance 
Estimation 
В поисках лучшей выборки…
25 
Analysis Value Chain 
Get datasets 
(Real, MC, ...) 
Pre-selection 
train test 
Pre-processing 
(e.g., add 
variables) 
Event 
selection 
cut-based 
MVA-based 
Counting/ 
fitting 
Systematics 
Estimation 
Signifiсance 
Estimation 
В поисках лучшей выборки…
Возможности улучшения 
26 
more powerful algorithms (e.g. BDT, Deep Neural 
Networks) 
improved features (e.g. «isolation» variables or 
particle identification) 
complex training scenarios (e.g. n-folding, 
ensembling, blending, cascading) 
https://tech.yandex.ru/education/m/shad/talks/1423/ 
https://tech.yandex.ru/education/m/shad/talks/1878/
27 
Алгоритмы, реализации 
Семества алгоритмов: 
– Boosted Decision Trees (BDT) 
– Artificial Neural Network (ANN) 
– Support Vector Machine (SVM) 
– Clustering, Bayesian Networks, ... 
Реализации 
– TMVA (60+ algorithms) 
– NeuroBayes 
– python scikit-learn 
– R packages 
– Private (Matrixnet, predict.io) 
– XGBoost, …
Цена точности 
How do I check quality of event discriminating function? 
– Overfitting? 
– Correlations? 
– Relevance of figure of merit to analysis significance? 
How do I deal with complexity? 
– Estimate influence of model parameters 
– Extra computation 
– Organization (cross-checks, collaboration) 
28
Переобучение 
29 
If decision boundary is too flexible it will conform too closely 
to the training points → overtraining. 
Monitor by applying classifier to independent validation sample. 
training sample independent validation sample
Figure-of-Merits Land 
Area under ROC 
Likelihood 
Misclassification 
False Positive, False Negative 
Punzi measure 
30 
S pS+B , S pB 
, · · · 
Efficiency flatness?
31 
Performance (ROC, Learning curve) 
Decision Tree Overfitting Underfitting RandomForest 
Training set accuracy 
Test set accuracy 
Number of iterations
Не только физика
33
Не только физика 
34 
Online triggers and DAQ 
Offline simulation and processing 
Data storage architectures 
Resource management and provisioning 
Networks and connectivity 
Data analytics
Другие задачи 
Оптимизация разбиения файлов по дискам и лентам 
Предсказание аномалий в поведении детектора 
Предсказание ресурсов/времени расчета задач 
… 
35
Классификатор без корреляций 
36 http://arxiv.org/abs/1410.4140v1
Определение равномерности 
37 http://arxiv.org/abs/1410.4140v1
Воспроизводимость 
эксперимента
Источники сложности 
Физика 
Работа с данными 
Стратегия анализа (http://bit.ly/SqDDE4) 
Шаги анализа 
Командное взаимодействие 
39
Индикаторы сложности 
‘Каким способом я сгененировал график 13?’ 
‘Новый студент хочет воспользоваться моделью, 
опубликованной мной 3 года назад, но я не могу 
воспроизвести ни одного графика’ 
‘Я думал, что использую те же параметры, но у меня 
получаются другие результаты!?I’ 
‘Где взять события, отобранные предыдущей версией моих 
скриптов?’ 
‘Оно работало еще вчера!’ 
‘Зачем я это сделал?’ 
40
Экосистема для экспериментов 
Программная среда для поддержки экосистемы 
совместной исследовательской работы над общими 
задачами и данными, позволяющая: 
выполнять численные эксперименты над большими 
объемами данных 
получать воспроизводимые результаты, 
использовать единообразные критерии качества. 
41
42 
Analysis 
code 
Intermediate 
Data objects 
Language 
modules 
Native 
Libraries 
Source 
data/ 
metadata 
Основные компоненты 
scikit-learn 
TMVA 
XGBoost 
Black-box
Заголовок (не длинней одной строки) 
Текст перед кодом: 
self.rsp.removeHeader(Transfer-Encoding); 
43
Заключение 
44
Заключение Вместо заключения 
совместные исследовательские работы с ЦЕРНом 
развитие нового направления 
практика в Яндексе 
45 
Bs ! μ+μ− 
Bs ! 4μ 
⌧ ! 3μ 
B ! K⇤μ+μ− 
· · · 
http://arxiv.org/abs/1410.4140v1
Андрей Устюжанин 
Руководитель совместных 
проектов Яндекс-ЦЕРН 
anaderi@yandex-team.ru 
Спасибо!
«…rejecting the background-only hypothesis in a 
statistical sense is only part of discovering a new 
phenomenon. One’s degree of belief that a new 
process is present will depend in general on other 
factors as well, such as the plausibility of the new 
signal hypothesis and the degree to which it can 
describe the data. Here, however, we only consider 
the task of determining the p-value of the 
background-only hypothesis; if it is found below a 
specified threshold, we regard this as “discovery”» 
47 From Cowan et al., EPJC71(2011) 1554

More Related Content

What's hot

Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Technosphere1
 
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятью
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятьюПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятью
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятьюAlexey Paznikov
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сетиIvan Kavalerov
 
Семинар 5. Многопоточное программирование на OpenMP (часть 5)
Семинар 5. Многопоточное программирование на OpenMP (часть 5)Семинар 5. Многопоточное программирование на OpenMP (часть 5)
Семинар 5. Многопоточное программирование на OpenMP (часть 5)Mikhail Kurnosov
 
Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Technosphere1
 
20130429 dynamic c_c++_program_analysis-alexey_samsonov
20130429 dynamic c_c++_program_analysis-alexey_samsonov20130429 dynamic c_c++_program_analysis-alexey_samsonov
20130429 dynamic c_c++_program_analysis-alexey_samsonovComputer Science Club
 
Лекция 6. Стандарт OpenMP
Лекция 6. Стандарт OpenMPЛекция 6. Стандарт OpenMP
Лекция 6. Стандарт OpenMPMikhail Kurnosov
 
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...Alexey Paznikov
 
Семинар 1. Многопоточное программирование на OpenMP (часть 1)
Семинар 1. Многопоточное программирование на OpenMP (часть 1)Семинар 1. Многопоточное программирование на OpenMP (часть 1)
Семинар 1. Многопоточное программирование на OpenMP (часть 1)Mikhail Kurnosov
 
Семинар 4. Многопоточное программирование на OpenMP (часть 4)
Семинар 4. Многопоточное программирование на OpenMP (часть 4)Семинар 4. Многопоточное программирование на OpenMP (часть 4)
Семинар 4. Многопоточное программирование на OpenMP (часть 4)Mikhail Kurnosov
 
Семинар 2. Многопоточное программирование на OpenMP (часть 2)
Семинар 2. Многопоточное программирование на OpenMP (часть 2)Семинар 2. Многопоточное программирование на OpenMP (часть 2)
Семинар 2. Многопоточное программирование на OpenMP (часть 2)Mikhail Kurnosov
 
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обученияДмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обученияAIST
 
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...Yandex
 
Лекция 2. Оптимизация ветвлений и циклов (Branch prediction and loop optimiz...
Лекция 2. Оптимизация ветвлений и циклов (Branch prediction and loop optimiz...Лекция 2. Оптимизация ветвлений и циклов (Branch prediction and loop optimiz...
Лекция 2. Оптимизация ветвлений и циклов (Branch prediction and loop optimiz...Mikhail Kurnosov
 
Векторизация кода (семинар 3)
Векторизация кода (семинар 3)Векторизация кода (семинар 3)
Векторизация кода (семинар 3)Mikhail Kurnosov
 
Обзор некоторых современных SoC
Обзор некоторых современных SoCОбзор некоторых современных SoC
Обзор некоторых современных SoCMSU GML VideoGroup
 
О высокопроизводительном вычислительном комплексе информационно-вычислительно...
О высокопроизводительном вычислительном комплексе информационно-вычислительно...О высокопроизводительном вычислительном комплексе информационно-вычислительно...
О высокопроизводительном вычислительном комплексе информационно-вычислительно...Dmitri Chubarov
 
Хочу знать, сколько уникальных посетителей было на моём сайте за произвольный...
Хочу знать, сколько уникальных посетителей было на моём сайте за произвольный...Хочу знать, сколько уникальных посетителей было на моём сайте за произвольный...
Хочу знать, сколько уникальных посетителей было на моём сайте за произвольный...Ontico
 

What's hot (20)

Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
Razinkov
RazinkovRazinkov
Razinkov
 
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятью
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятьюПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятью
ПВТ - осень 2014 - Лекция 2 - Архитектура вычислительных систем с общей памятью
 
Сверточные нейронные сети
Сверточные нейронные сетиСверточные нейронные сети
Сверточные нейронные сети
 
Семинар 5. Многопоточное программирование на OpenMP (часть 5)
Семинар 5. Многопоточное программирование на OpenMP (часть 5)Семинар 5. Многопоточное программирование на OpenMP (часть 5)
Семинар 5. Многопоточное программирование на OpenMP (часть 5)
 
Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей"
 
20130429 dynamic c_c++_program_analysis-alexey_samsonov
20130429 dynamic c_c++_program_analysis-alexey_samsonov20130429 dynamic c_c++_program_analysis-alexey_samsonov
20130429 dynamic c_c++_program_analysis-alexey_samsonov
 
Лекция 6. Стандарт OpenMP
Лекция 6. Стандарт OpenMPЛекция 6. Стандарт OpenMP
Лекция 6. Стандарт OpenMP
 
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
ПВТ - весна 2015 - Лекция 1. Актуальность параллельных вычислений. Анализ пар...
 
Семинар 1. Многопоточное программирование на OpenMP (часть 1)
Семинар 1. Многопоточное программирование на OpenMP (часть 1)Семинар 1. Многопоточное программирование на OpenMP (часть 1)
Семинар 1. Многопоточное программирование на OpenMP (часть 1)
 
Семинар 4. Многопоточное программирование на OpenMP (часть 4)
Семинар 4. Многопоточное программирование на OpenMP (часть 4)Семинар 4. Многопоточное программирование на OpenMP (часть 4)
Семинар 4. Многопоточное программирование на OpenMP (часть 4)
 
Семинар 2. Многопоточное программирование на OpenMP (часть 2)
Семинар 2. Многопоточное программирование на OpenMP (часть 2)Семинар 2. Многопоточное программирование на OpenMP (часть 2)
Семинар 2. Многопоточное программирование на OpenMP (часть 2)
 
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обученияДмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
Дмитрий Кручинин - Сравнительный анализ библиотек глубинного обучения
 
Основы MATLAB. Численные методы
Основы MATLAB. Численные методыОсновы MATLAB. Численные методы
Основы MATLAB. Численные методы
 
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...
Евгений Крутько — Опыт внедрения технологий параллельных вычислений для повыш...
 
Лекция 2. Оптимизация ветвлений и циклов (Branch prediction and loop optimiz...
Лекция 2. Оптимизация ветвлений и циклов (Branch prediction and loop optimiz...Лекция 2. Оптимизация ветвлений и циклов (Branch prediction and loop optimiz...
Лекция 2. Оптимизация ветвлений и циклов (Branch prediction and loop optimiz...
 
Векторизация кода (семинар 3)
Векторизация кода (семинар 3)Векторизация кода (семинар 3)
Векторизация кода (семинар 3)
 
Обзор некоторых современных SoC
Обзор некоторых современных SoCОбзор некоторых современных SoC
Обзор некоторых современных SoC
 
О высокопроизводительном вычислительном комплексе информационно-вычислительно...
О высокопроизводительном вычислительном комплексе информационно-вычислительно...О высокопроизводительном вычислительном комплексе информационно-вычислительно...
О высокопроизводительном вычислительном комплексе информационно-вычислительно...
 
Хочу знать, сколько уникальных посетителей было на моём сайте за произвольный...
Хочу знать, сколько уникальных посетителей было на моём сайте за произвольный...Хочу знать, сколько уникальных посетителей было на моём сайте за произвольный...
Хочу знать, сколько уникальных посетителей было на моём сайте за произвольный...
 

Similar to Методы машинного обучения в физике элементарных частиц

Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Technosphere1
 
Поиск объектов
Поиск объектовПоиск объектов
Поиск объектовLiloSEA
 
распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»seik0ixtem
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхmaxkalachev
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхSoftline
 
курсовая работа
курсовая работакурсовая работа
курсовая работаvictoria_4
 
Deep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksAlignedResearch
 
Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Technopark
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2Vladimir Krylov
 
Метод искусственной пчелиной колонии, алгоритм пчёл
Метод искусственной пчелиной колонии, алгоритм пчёлМетод искусственной пчелиной колонии, алгоритм пчёл
Метод искусственной пчелиной колонии, алгоритм пчёлKirill Netreba
 
Лекция 07 Обработка видео
Лекция 07 Обработка видеоЛекция 07 Обработка видео
Лекция 07 Обработка видеоVictor Kulikov
 
20071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture0620071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture06Computer Science Club
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1
 
моделирование Гуманитарных процессов. Лекция 1
моделирование Гуманитарных процессов. Лекция 1моделирование Гуманитарных процессов. Лекция 1
моделирование Гуманитарных процессов. Лекция 1Andrei V, Zhuravlev
 
CV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoCV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoAnton Konushin
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.Anton Konushin
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Technosphere1
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификацииyaevents
 

Similar to Методы машинного обучения в физике элементарных частиц (20)

Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
Поиск объектов
Поиск объектовПоиск объектов
Поиск объектов
 
распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»распознавание автомобильного номера в условиях зашумлённости»
распознавание автомобильного номера в условиях зашумлённости»
 
Razinkov
RazinkovRazinkov
Razinkov
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данных
 
Обзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данныхОбзор современного состояния области алгоритмов и структур данных
Обзор современного состояния области алгоритмов и структур данных
 
курсовая работа
курсовая работакурсовая работа
курсовая работа
 
Deep Learning and Convolutional Networks
Deep Learning and Convolutional NetworksDeep Learning and Convolutional Networks
Deep Learning and Convolutional Networks
 
Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1Алгоритмы и структуры данных весна 2014 лекция 1
Алгоритмы и структуры данных весна 2014 лекция 1
 
!Predictive analytics part_2
!Predictive analytics part_2!Predictive analytics part_2
!Predictive analytics part_2
 
Метод искусственной пчелиной колонии, алгоритм пчёл
Метод искусственной пчелиной колонии, алгоритм пчёлМетод искусственной пчелиной колонии, алгоритм пчёл
Метод искусственной пчелиной колонии, алгоритм пчёл
 
Лекция 07 Обработка видео
Лекция 07 Обработка видеоЛекция 07 Обработка видео
Лекция 07 Обработка видео
 
20071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture0620071111 efficientalgorithms kulikov_lecture06
20071111 efficientalgorithms kulikov_lecture06
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
моделирование Гуманитарных процессов. Лекция 1
моделирование Гуманитарных процессов. Лекция 1моделирование Гуманитарных процессов. Лекция 1
моделирование Гуманитарных процессов. Лекция 1
 
CV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoCV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic video
 
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
 
Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining" Лекция №1 "Задачи Data Mining"
Лекция №1 "Задачи Data Mining"
 
Логические алгоритмы классификации
Логические алгоритмы классификацииЛогические алгоритмы классификации
Логические алгоритмы классификации
 
Lsa fca spb
Lsa fca spbLsa fca spb
Lsa fca spb
 

Методы машинного обучения в физике элементарных частиц

  • 1.
  • 2. Методы машинного обучения в физике элементарных частиц Андрей Устюжанин 27 октября 2014
  • 3. Из чего сделана наша вселенная? Универсальные законы? Что такое антиматерия? темная материя? Как перейти от законов микро-мира к законам макро-мира? … 3 Вопросы «на миллион»
  • 4. Гипотезы → Эксперименты → Законы 4 F=ma E=mc2 Стандартная модель Суперсимметричная модель частиц (SUSY)? Гравитоны?
  • 9. Заголовок (не длинней одной строки) 9
  • 10. A simulated SUSY event in ATLAS 10 high pT muons high pT jets of hadrons p p missing transverse energy
  • 11. «Событие» в физике частиц (event) Единица данных - событие (event) Идеально, если представлено набором векторов импульсов и набором типов частиц. минимум погрешности На практике содержит «реконструированные» траектории, кластеры энергии, зафиксированные калориметрами, описывается величинами содержащими ошибки (несовершенно!): – разрешение датчиков – изоляция траекторий – углы – … 11
  • 12. 12 Генерация событий 1 событие - 150 Kb 1 год ~ 10 Pb
  • 13. Проверка гипотез Глазами физика – набор данных описывается вектором переменных (x1, x2, …, xn) – для фона и сигнала распределения различны – при условии, что есть событие нужно с заданной степенью достоверности (discriminating power) сказать - является ли оно фоном или сигналом (предполагается возможность ошибки) Свойства решающего правила (discriminator): – Эффективность: вероятность корректного определения сигнальных событий – Вероятность «мисидентификации»: вероятность определить сигнал как фон – Чистота (purity): доля правильно определенного сигнала 13
  • 14. Глазами статистика H0 - (null hypothesis) нулевая гипотеза (в выборке только фон) H1 - альтернативная гипотеза (в выборке содержится сигнал + фон) α - уровень достоверности, вероятность отклонить H1, при том, что она истинна (ошибка первого рода) – α = 1 - эффективность β - вероятность отклонить H0, при том что она истинна (ошибка второго рода) – β = вероятность мисидентификации 14
  • 15. События проверки гипотез 15 ! For each event we measure a set of numbers: x= (x ,…,xn ) 1 x1 = jet pT x2 = missing energy x3 = particle i.d. measure, ... x follows some n-dimensional joint probability density, which depends on the type of event produced, i.e., was it , t t pp→ … → , g ~ g ~ pp xi x j E.g. hypotheses H0, H1, ... Often simply signal (s), background (b) ( ) 1 p x! |H ( ) 0 p x! |H
  • 16. Выбор оптимальных ограничений 16 In particle physics usually start by making simple cuts: xi ci xj cj H1 Maybe later try some other type of decision boundary: H0 H0 H0 H1 H1
  • 18. Выборка событий 18 To search for events of a given type (H0: ‘signal’), need discriminating variable(s) distributed as differently as possible relative to unwanted event types (H1: ‘background’) Count number of events in acceptance region defined by ‘cuts’ Expected number of signal events: s = !s !s L Expected number of background events: b = ! b !b L !s, !b = cross section for signal, background ‘Efficiencies’: !s = P( accept | s ), !b = P( accept | b ) L = integrated luminosity (related to beam intensity, data taking time)
  • 23. Статистическая значимость гипотезы 22 подробности: http://www.pp.rhul.ac.uk/~cowan http://bit.ly/1tZlZci
  • 24. «In Monte-Carlo we trust!» 23
  • 25. Background events 24 This event from Standard Model ttbar production also has high pT jets and muons, and some missing transverse energy. → can easily mimic a SUSY event.
  • 26. 25 Analysis Value Chain Get datasets (Real, MC, ...) Pre-selection train test Pre-processing (e.g., add variables) Event selection cut-based MVA-based Counting/ fitting Systematics Estimation Signifiсance Estimation В поисках лучшей выборки…
  • 27. 25 Analysis Value Chain Get datasets (Real, MC, ...) Pre-selection train test Pre-processing (e.g., add variables) Event selection cut-based MVA-based Counting/ fitting Systematics Estimation Signifiсance Estimation В поисках лучшей выборки…
  • 28. Возможности улучшения 26 more powerful algorithms (e.g. BDT, Deep Neural Networks) improved features (e.g. «isolation» variables or particle identification) complex training scenarios (e.g. n-folding, ensembling, blending, cascading) https://tech.yandex.ru/education/m/shad/talks/1423/ https://tech.yandex.ru/education/m/shad/talks/1878/
  • 29. 27 Алгоритмы, реализации Семества алгоритмов: – Boosted Decision Trees (BDT) – Artificial Neural Network (ANN) – Support Vector Machine (SVM) – Clustering, Bayesian Networks, ... Реализации – TMVA (60+ algorithms) – NeuroBayes – python scikit-learn – R packages – Private (Matrixnet, predict.io) – XGBoost, …
  • 30. Цена точности How do I check quality of event discriminating function? – Overfitting? – Correlations? – Relevance of figure of merit to analysis significance? How do I deal with complexity? – Estimate influence of model parameters – Extra computation – Organization (cross-checks, collaboration) 28
  • 31. Переобучение 29 If decision boundary is too flexible it will conform too closely to the training points → overtraining. Monitor by applying classifier to independent validation sample. training sample independent validation sample
  • 32. Figure-of-Merits Land Area under ROC Likelihood Misclassification False Positive, False Negative Punzi measure 30 S pS+B , S pB , · · · Efficiency flatness?
  • 33. 31 Performance (ROC, Learning curve) Decision Tree Overfitting Underfitting RandomForest Training set accuracy Test set accuracy Number of iterations
  • 35. 33
  • 36. Не только физика 34 Online triggers and DAQ Offline simulation and processing Data storage architectures Resource management and provisioning Networks and connectivity Data analytics
  • 37. Другие задачи Оптимизация разбиения файлов по дискам и лентам Предсказание аномалий в поведении детектора Предсказание ресурсов/времени расчета задач … 35
  • 38. Классификатор без корреляций 36 http://arxiv.org/abs/1410.4140v1
  • 39. Определение равномерности 37 http://arxiv.org/abs/1410.4140v1
  • 41. Источники сложности Физика Работа с данными Стратегия анализа (http://bit.ly/SqDDE4) Шаги анализа Командное взаимодействие 39
  • 42. Индикаторы сложности ‘Каким способом я сгененировал график 13?’ ‘Новый студент хочет воспользоваться моделью, опубликованной мной 3 года назад, но я не могу воспроизвести ни одного графика’ ‘Я думал, что использую те же параметры, но у меня получаются другие результаты!?I’ ‘Где взять события, отобранные предыдущей версией моих скриптов?’ ‘Оно работало еще вчера!’ ‘Зачем я это сделал?’ 40
  • 43. Экосистема для экспериментов Программная среда для поддержки экосистемы совместной исследовательской работы над общими задачами и данными, позволяющая: выполнять численные эксперименты над большими объемами данных получать воспроизводимые результаты, использовать единообразные критерии качества. 41
  • 44. 42 Analysis code Intermediate Data objects Language modules Native Libraries Source data/ metadata Основные компоненты scikit-learn TMVA XGBoost Black-box
  • 45. Заголовок (не длинней одной строки) Текст перед кодом: self.rsp.removeHeader(Transfer-Encoding); 43
  • 47. Заключение Вместо заключения совместные исследовательские работы с ЦЕРНом развитие нового направления практика в Яндексе 45 Bs ! μ+μ− Bs ! 4μ ⌧ ! 3μ B ! K⇤μ+μ− · · · http://arxiv.org/abs/1410.4140v1
  • 48. Андрей Устюжанин Руководитель совместных проектов Яндекс-ЦЕРН anaderi@yandex-team.ru Спасибо!
  • 49. «…rejecting the background-only hypothesis in a statistical sense is only part of discovering a new phenomenon. One’s degree of belief that a new process is present will depend in general on other factors as well, such as the plausibility of the new signal hypothesis and the degree to which it can describe the data. Here, however, we only consider the task of determining the p-value of the background-only hypothesis; if it is found below a specified threshold, we regard this as “discovery”» 47 From Cowan et al., EPJC71(2011) 1554