Обработка данных в эксперименте LHCb, использование технологий Яндекса для классификации событий, разработанные им алгоритмы машинного обучения, методы оптимизации хранения и доступа к данным.
4. Преобладание материи над
антиматерией
› Почти вся наблюдаемая
Вселенная состоит из
материи
› Большинство законов
CP-инвариантны
Иллюстрация: http://thesciencenewss.blogspot.ru/2012/03/atom-of-antimatter-was-measured-for.html 4
5. Тёмная материя
› Наблюдаемые
гравитационные эффекты не
согласуются с наблюдаемым
во Вселенной количеством
материи.
› Предположительно, это
стабильные, массивные,
электрически нейтральные
частицы.
Иллюстрация: http://naukas.com/2011/06/07/confirmada-la-existencia-de-energia-oscura/ 5
6. Масса нейтрино
› Нейтрино осциллируют,
следовательно массивны
(Нобелевская премия 2015)
› Являются ли они
майорановскими
фермионами?
› Существуют ли стерильные
нейтрино?
Иллюстрация: Нобелевский комитет 6
8. ЦЕРН - уникальная организация
› Крупнейшая в мире
лаборатория по физике
частиц
› Институты из более 100
стран
› Дипломатический иммунитет
у сотрудников (не у меня)
› Лучшая столовая из всех, где
я бывал
Фотография: http://www.mapio.cz/a/55438126/?page=3 8
9.
10. LHCb - вчера исполнилось 20 лет
Никита Казеев 10
13. Физика в LHCb
LHCb is a dedicated b and c - physics precision experiment at the
LHC that will search for New Physics (NP) beyond the Standard
Model (SM) through the study of very rare decays of charm and
beauty - flavoured hadrons and precision measurements of CP -
violating observables.
”B physics at LHCb” Monica Pepe Altarelli and Frederic Teubert
Никита Казеев 13
15. Идея анализа
1. Выбрать распад для изучения
2. Теоретически оценить его вероятность в рамках Стандартной
модели
3. Посчитать его частоту в коллайдере
4. Принять или отвергнуть гипотезу, что они одинаковы
Никита Казеев 15
20. Машинное обучение
› Идея: построить модель, описывающую данные
› Проблема: сложные модели сложно найти, рассчитать,
применить к данным и проверить (Вы пробовали решить
уравнение Шредингера для 100 частиц? Как Вы будете
проверять результат такого расчёта? Какому закону
подчиняются клики в поиске Яндекса?)
Никита Казеев 19
21. Машинное обучение
› Идея: построить модель, описывающую данные
› Проблема: сложные модели сложно найти, рассчитать,
применить к данным и проверить (Вы пробовали решить
уравнение Шредингера для 100 частиц? Как Вы будете
проверять результат такого расчёта? Какому закону
подчиняются клики в поиске Яндекса?)
› Выход: взять класс моделей, априори не имеющих отношения
к реальности, но достаточно гибких, чтобы описывать
требуемые характеристики, но при этом удобных для расчёта.
Простейший пример: сплайны.
Никита Казеев 19
22. Машинное обучение в анализе
Детектор Ферма GRID
Workstation
107
cобытий/с
103
-104
cобытий/с Хранит
1011
в Run 1
Триггеры ML
Селекция ML
Анализ ML
Никита Казеев 20
24. CERN mission
Established by a convention in 1954, the mission of CERN has four
strands:
› Research. Seeking and finding answers to questions about the
universe.
› Technology. Advancing the frontiers of technology.
› Collaborating. Bringing nations together through science.
› Education. Training the scientists of tomorrow.
Никита Казеев 22
25. Миссия Яндекса (выдержка)
› Яндекс — технологическая компания. В основе наших
сервисов лежат сложные, уникальные, трудно
воспроизводимые технологии. Именно они позволяют нам
делать то, что еще некоторое время назад люди приняли бы за
волшебство.
› Наука. Нам удалось собрать команду специалистов во многих
областях науки — в математике, анализе данных,
программировании, лингвистике и других дисциплинах.
Вычислительные возможности и алгоритмы Яндекса
используют и наши партнеры для проведения своих научных
исследований — например, в области ядерных исследований
и геологоразведки.
Никита Казеев 23
26. Tier 2 GRID site
Иллюстрация: https://sciencenode.org/visualization/big-data-big-grid.php 24
27. Топологический триггер
› Отбирает всевозможные
распады b-адрона.
› Использовался в 60%
публикаций по Run 1.
› Эффективность - процент
нужных событий, который
будет отобран триггером.
Никита Казеев 25
29. 𝜏−
→ 𝜇−
𝜇+
𝜇−
› Распад нарушает сохранение лептонного аромата
› Не нашли: 𝑝 < 4.6 ⋅ 10−8
, 90% значимость.
› Использовали MatrixNet в составе иерархии классификаторов
(+6%)
Published: JHEP 02 (2015) 121 27
30. Оптимизация хранения данных
› Данные можно хранить на жестких дисках (дорого и быстро) и
магнитных кассетах (дёшево и медленно)
› Мы использовали машинное обучение, чтобы предсказать,
какие файлы не буду востребованы.
› Экономит около 40% данных LHCb, из них ошибочно около
1% файлов.
Никита Казеев 28
31.
32.
33. Event Index - поиск по событиям
› Быстрый (15-60с) поиск по высокоуровневым критериям по
1010
событиям.
› Построение гистограмм по высокоуровневым переменным.
› Интегрированная визуализация событий by Christoph
Langenbruch.
› Построен на технологиях с открытым кодом (Apache Lucene).
Никита Казеев 31
34. Поиск аномалий в работе детектора
› В ближайших планах
› Проблема: части детектора выходят из строя
› Сейчас люди 24/7 смотрят на гистограммы
› Хотим сделать автоматический поиск
Никита Казеев 32
35. CRAYFIS
› Детектор космических лучей,
построенный из смартфонов
› На стадии тестирования
идеи
› Чтобы сравняться с Pierre
Auger Observatory,
необходима плотность
устройств 400/км2
на
площади 3000 км2
Иллюстрация: http://www.scifun.ed.ac.uk/card/images/left/cosmic-rays.jpg 33
36. Образование
› Summer school on Machine Learning in High Energy Physics
http://www.hse.ru/mlhep2015/
› 𝜏−
→ 𝜇−
𝜇+
𝜇−
соревнование на Kaggle.
https://www.kaggle.com/c/flavours-of-physics
› School in Imperial College London
https://github.com/arogozhnikov/YSDA_ICL
Никита Казеев 34
37. Образование - приглашаем
› Machine Learning for the LHC Distributed Data Placement and
Track Finding 7.12.15-9.12.15, Kurchatov Institute
https://indico.cern.ch/event/452159/
› ALEPH Workshop @ NIPS 2015 7.12.15-12.12.15, Montreal
https://yandexdataschool.github.io/aleph2015/
› Flavours of Physics; Machine Learning workshop, February 2016,
University of Zurich
https://indico.cern.ch/event/433556 (page WiP)
› Summer school on Machine Learning in High Energy Physics,
Summer 2016, somewhere in Europe
Никита Казеев 35
38. Заключение
› Современная фундаментальная физика немыслима без
компьютеризированного анализа данных.
› ШАДу это интересно, а Вам?
› Мы с радостью рассмотрим расширение сферы деятельности
за пределы физики в ЦЕРНе.
Никита Казеев 36