Физика в Яндексе -
опыт сотрудничества с
ЦЕРНом
Никита Казеев
Яндекс
Нерешенные
проблемы физики
Преобладание материи над
антиматерией
› Почти вся наблюдаемая
Вселенная состоит из
материи
› Большинство законов
CP-инвариантны
Иллюстрация: http://thesciencenewss.blogspot.ru/2012/03/atom-of-antimatter-was-measured-for.html 4
Тёмная материя
› Наблюдаемые
гравитационные эффекты не
согласуются с наблюдаемым
во Вселенной количеством
материи.
› Предположительно, это
стабильные, массивные,
электрически нейтральные
частицы.
Иллюстрация: http://naukas.com/2011/06/07/confirmada-la-existencia-de-energia-oscura/ 5
Масса нейтрино
› Нейтрино осциллируют,
следовательно массивны
(Нобелевская премия 2015)
› Являются ли они
майорановскими
фермионами?
› Существуют ли стерильные
нейтрино?
Иллюстрация: Нобелевский комитет 6
ЦЕРН
ЦЕРН - уникальная организация
› Крупнейшая в мире
лаборатория по физике
частиц
› Институты из более 100
стран
› Дипломатический иммунитет
у сотрудников (не у меня)
› Лучшая столовая из всех, где
я бывал
Фотография: http://www.mapio.cz/a/55438126/?page=3 8
LHCb - вчера исполнилось 20 лет
Никита Казеев 10
LHCb
Никита Казеев 11
Физика в LHCb
Никита Казеев 12
Физика в LHCb
LHCb is a dedicated b and c - physics precision experiment at the
LHC that will search for New Physics (NP) beyond the Standard
Model (SM) through the study of very rare decays of charm and
beauty - flavoured hadrons and precision measurements of CP -
violating observables.
”B physics at LHCb” Monica Pepe Altarelli and Frederic Teubert
Никита Казеев 13
Анализ - от
коллайдера к статье
Идея анализа
1. Выбрать распад для изучения
2. Теоретически оценить его вероятность в рамках Стандартной
модели
3. Посчитать его частоту в коллайдере
4. Принять или отвергнуть гипотезу, что они одинаковы
Никита Казеев 15
Раньше
Данные Анализ данных
Иллюстрации: Fermilab 16
Схема анализа
Детектор Ферма GRID
Workstation
107
cобытий/с
103
-104
cобытий/с Хранит
1011
в Run 1
Триггеры
Селекция
Анализ
Никита Казеев 18
Машинное обучение
› Идея: построить модель, описывающую данные
Никита Казеев 19
Машинное обучение
› Идея: построить модель, описывающую данные
› Проблема: сложные модели сложно найти, рассчитать,
применить к данным и проверить (Вы пробовали решить
уравнение Шредингера для 100 частиц? Как Вы будете
проверять результат такого расчёта? Какому закону
подчиняются клики в поиске Яндекса?)
Никита Казеев 19
Машинное обучение
› Идея: построить модель, описывающую данные
› Проблема: сложные модели сложно найти, рассчитать,
применить к данным и проверить (Вы пробовали решить
уравнение Шредингера для 100 частиц? Как Вы будете
проверять результат такого расчёта? Какому закону
подчиняются клики в поиске Яндекса?)
› Выход: взять класс моделей, априори не имеющих отношения
к реальности, но достаточно гибких, чтобы описывать
требуемые характеристики, но при этом удобных для расчёта.
Простейший пример: сплайны.
Никита Казеев 19
Машинное обучение в анализе
Детектор Ферма GRID
Workstation
107
cобытий/с
103
-104
cобытий/с Хранит
1011
в Run 1
Триггеры ML
Селекция ML
Анализ ML
Никита Казеев 20
Яндекс
CERN mission
Established by a convention in 1954, the mission of CERN has four
strands:
› Research. Seeking and finding answers to questions about the
universe.
› Technology. Advancing the frontiers of technology.
› Collaborating. Bringing nations together through science.
› Education. Training the scientists of tomorrow.
Никита Казеев 22
Миссия Яндекса (выдержка)
› Яндекс — технологическая компания. В основе наших
сервисов лежат сложные, уникальные, трудно
воспроизводимые технологии. Именно они позволяют нам
делать то, что еще некоторое время назад люди приняли бы за
волшебство.
› Наука. Нам удалось собрать команду специалистов во многих
областях науки — в математике, анализе данных,
программировании, лингвистике и других дисциплинах.
Вычислительные возможности и алгоритмы Яндекса
используют и наши партнеры для проведения своих научных
исследований — например, в области ядерных исследований
и геологоразведки.
Никита Казеев 23
Tier 2 GRID site
Иллюстрация: https://sciencenode.org/visualization/big-data-big-grid.php 24
Топологический триггер
› Отбирает всевозможные
распады b-адрона.
› Использовался в 60%
публикаций по Run 1.
› Эффективность - процент
нужных событий, который
будет отобран триггером.
Никита Казеев 25
Эффективность с MatrixNet
1 2 3 4 5 6
0
10
20
30
40
50
60
70
80
90
Run-I (Before optimization) MatrixNet
Никита Казеев 26
𝜏−
→ 𝜇−
𝜇+
𝜇−
› Распад нарушает сохранение лептонного аромата
› Не нашли: 𝑝 < 4.6 ⋅ 10−8
, 90% значимость.
› Использовали MatrixNet в составе иерархии классификаторов
(+6%)
Published: JHEP 02 (2015) 121 27
Оптимизация хранения данных
› Данные можно хранить на жестких дисках (дорого и быстро) и
магнитных кассетах (дёшево и медленно)
› Мы использовали машинное обучение, чтобы предсказать,
какие файлы не буду востребованы.
› Экономит около 40% данных LHCb, из них ошибочно около
1% файлов.
Никита Казеев 28
Event Index - поиск по событиям
› Быстрый (15-60с) поиск по высокоуровневым критериям по
1010
событиям.
› Построение гистограмм по высокоуровневым переменным.
› Интегрированная визуализация событий by Christoph
Langenbruch.
› Построен на технологиях с открытым кодом (Apache Lucene).
Никита Казеев 31
Поиск аномалий в работе детектора
› В ближайших планах
› Проблема: части детектора выходят из строя
› Сейчас люди 24/7 смотрят на гистограммы
› Хотим сделать автоматический поиск
Никита Казеев 32
CRAYFIS
› Детектор космических лучей,
построенный из смартфонов
› На стадии тестирования
идеи
› Чтобы сравняться с Pierre
Auger Observatory,
необходима плотность
устройств 400/км2
на
площади 3000 км2
Иллюстрация: http://www.scifun.ed.ac.uk/card/images/left/cosmic-rays.jpg 33
Образование
› Summer school on Machine Learning in High Energy Physics
http://www.hse.ru/mlhep2015/
› 𝜏−
→ 𝜇−
𝜇+
𝜇−
соревнование на Kaggle.
https://www.kaggle.com/c/flavours-of-physics
› School in Imperial College London
https://github.com/arogozhnikov/YSDA_ICL
Никита Казеев 34
Образование - приглашаем
› Machine Learning for the LHC Distributed Data Placement and
Track Finding 7.12.15-9.12.15, Kurchatov Institute
https://indico.cern.ch/event/452159/
› ALEPH Workshop @ NIPS 2015 7.12.15-12.12.15, Montreal
https://yandexdataschool.github.io/aleph2015/
› Flavours of Physics; Machine Learning workshop, February 2016,
University of Zurich
https://indico.cern.ch/event/433556 (page WiP)
› Summer school on Machine Learning in High Energy Physics,
Summer 2016, somewhere in Europe
Никита Казеев 35
Заключение
› Современная фундаментальная физика немыслима без
компьютеризированного анализа данных.
› ШАДу это интересно, а Вам?
› Мы с радостью рассмотрим расширение сферы деятельности
за пределы физики в ЦЕРНе.
Никита Казеев 36
Контакты
Никита Казеев
kazeevn@yandex-team.ru
37

Физика в Яндексе: опыт сотрудничества с ЦЕРНом

  • 2.
    Физика в Яндексе- опыт сотрудничества с ЦЕРНом Никита Казеев Яндекс
  • 3.
  • 4.
    Преобладание материи над антиматерией ›Почти вся наблюдаемая Вселенная состоит из материи › Большинство законов CP-инвариантны Иллюстрация: http://thesciencenewss.blogspot.ru/2012/03/atom-of-antimatter-was-measured-for.html 4
  • 5.
    Тёмная материя › Наблюдаемые гравитационныеэффекты не согласуются с наблюдаемым во Вселенной количеством материи. › Предположительно, это стабильные, массивные, электрически нейтральные частицы. Иллюстрация: http://naukas.com/2011/06/07/confirmada-la-existencia-de-energia-oscura/ 5
  • 6.
    Масса нейтрино › Нейтриноосциллируют, следовательно массивны (Нобелевская премия 2015) › Являются ли они майорановскими фермионами? › Существуют ли стерильные нейтрино? Иллюстрация: Нобелевский комитет 6
  • 7.
  • 8.
    ЦЕРН - уникальнаяорганизация › Крупнейшая в мире лаборатория по физике частиц › Институты из более 100 стран › Дипломатический иммунитет у сотрудников (не у меня) › Лучшая столовая из всех, где я бывал Фотография: http://www.mapio.cz/a/55438126/?page=3 8
  • 10.
    LHCb - вчераисполнилось 20 лет Никита Казеев 10
  • 11.
  • 12.
  • 13.
    Физика в LHCb LHCbis a dedicated b and c - physics precision experiment at the LHC that will search for New Physics (NP) beyond the Standard Model (SM) through the study of very rare decays of charm and beauty - flavoured hadrons and precision measurements of CP - violating observables. ”B physics at LHCb” Monica Pepe Altarelli and Frederic Teubert Никита Казеев 13
  • 14.
  • 15.
    Идея анализа 1. Выбратьраспад для изучения 2. Теоретически оценить его вероятность в рамках Стандартной модели 3. Посчитать его частоту в коллайдере 4. Принять или отвергнуть гипотезу, что они одинаковы Никита Казеев 15
  • 16.
  • 18.
    Схема анализа Детектор ФермаGRID Workstation 107 cобытий/с 103 -104 cобытий/с Хранит 1011 в Run 1 Триггеры Селекция Анализ Никита Казеев 18
  • 19.
    Машинное обучение › Идея:построить модель, описывающую данные Никита Казеев 19
  • 20.
    Машинное обучение › Идея:построить модель, описывающую данные › Проблема: сложные модели сложно найти, рассчитать, применить к данным и проверить (Вы пробовали решить уравнение Шредингера для 100 частиц? Как Вы будете проверять результат такого расчёта? Какому закону подчиняются клики в поиске Яндекса?) Никита Казеев 19
  • 21.
    Машинное обучение › Идея:построить модель, описывающую данные › Проблема: сложные модели сложно найти, рассчитать, применить к данным и проверить (Вы пробовали решить уравнение Шредингера для 100 частиц? Как Вы будете проверять результат такого расчёта? Какому закону подчиняются клики в поиске Яндекса?) › Выход: взять класс моделей, априори не имеющих отношения к реальности, но достаточно гибких, чтобы описывать требуемые характеристики, но при этом удобных для расчёта. Простейший пример: сплайны. Никита Казеев 19
  • 22.
    Машинное обучение ванализе Детектор Ферма GRID Workstation 107 cобытий/с 103 -104 cобытий/с Хранит 1011 в Run 1 Триггеры ML Селекция ML Анализ ML Никита Казеев 20
  • 23.
  • 24.
    CERN mission Established bya convention in 1954, the mission of CERN has four strands: › Research. Seeking and finding answers to questions about the universe. › Technology. Advancing the frontiers of technology. › Collaborating. Bringing nations together through science. › Education. Training the scientists of tomorrow. Никита Казеев 22
  • 25.
    Миссия Яндекса (выдержка) ›Яндекс — технологическая компания. В основе наших сервисов лежат сложные, уникальные, трудно воспроизводимые технологии. Именно они позволяют нам делать то, что еще некоторое время назад люди приняли бы за волшебство. › Наука. Нам удалось собрать команду специалистов во многих областях науки — в математике, анализе данных, программировании, лингвистике и других дисциплинах. Вычислительные возможности и алгоритмы Яндекса используют и наши партнеры для проведения своих научных исследований — например, в области ядерных исследований и геологоразведки. Никита Казеев 23
  • 26.
    Tier 2 GRIDsite Иллюстрация: https://sciencenode.org/visualization/big-data-big-grid.php 24
  • 27.
    Топологический триггер › Отбираетвсевозможные распады b-адрона. › Использовался в 60% публикаций по Run 1. › Эффективность - процент нужных событий, который будет отобран триггером. Никита Казеев 25
  • 28.
    Эффективность с MatrixNet 12 3 4 5 6 0 10 20 30 40 50 60 70 80 90 Run-I (Before optimization) MatrixNet Никита Казеев 26
  • 29.
    𝜏− → 𝜇− 𝜇+ 𝜇− › Распаднарушает сохранение лептонного аромата › Не нашли: 𝑝 < 4.6 ⋅ 10−8 , 90% значимость. › Использовали MatrixNet в составе иерархии классификаторов (+6%) Published: JHEP 02 (2015) 121 27
  • 30.
    Оптимизация хранения данных ›Данные можно хранить на жестких дисках (дорого и быстро) и магнитных кассетах (дёшево и медленно) › Мы использовали машинное обучение, чтобы предсказать, какие файлы не буду востребованы. › Экономит около 40% данных LHCb, из них ошибочно около 1% файлов. Никита Казеев 28
  • 33.
    Event Index -поиск по событиям › Быстрый (15-60с) поиск по высокоуровневым критериям по 1010 событиям. › Построение гистограмм по высокоуровневым переменным. › Интегрированная визуализация событий by Christoph Langenbruch. › Построен на технологиях с открытым кодом (Apache Lucene). Никита Казеев 31
  • 34.
    Поиск аномалий вработе детектора › В ближайших планах › Проблема: части детектора выходят из строя › Сейчас люди 24/7 смотрят на гистограммы › Хотим сделать автоматический поиск Никита Казеев 32
  • 35.
    CRAYFIS › Детектор космическихлучей, построенный из смартфонов › На стадии тестирования идеи › Чтобы сравняться с Pierre Auger Observatory, необходима плотность устройств 400/км2 на площади 3000 км2 Иллюстрация: http://www.scifun.ed.ac.uk/card/images/left/cosmic-rays.jpg 33
  • 36.
    Образование › Summer schoolon Machine Learning in High Energy Physics http://www.hse.ru/mlhep2015/ › 𝜏− → 𝜇− 𝜇+ 𝜇− соревнование на Kaggle. https://www.kaggle.com/c/flavours-of-physics › School in Imperial College London https://github.com/arogozhnikov/YSDA_ICL Никита Казеев 34
  • 37.
    Образование - приглашаем ›Machine Learning for the LHC Distributed Data Placement and Track Finding 7.12.15-9.12.15, Kurchatov Institute https://indico.cern.ch/event/452159/ › ALEPH Workshop @ NIPS 2015 7.12.15-12.12.15, Montreal https://yandexdataschool.github.io/aleph2015/ › Flavours of Physics; Machine Learning workshop, February 2016, University of Zurich https://indico.cern.ch/event/433556 (page WiP) › Summer school on Machine Learning in High Energy Physics, Summer 2016, somewhere in Europe Никита Казеев 35
  • 38.
    Заключение › Современная фундаментальнаяфизика немыслима без компьютеризированного анализа данных. › ШАДу это интересно, а Вам? › Мы с радостью рассмотрим расширение сферы деятельности за пределы физики в ЦЕРНе. Никита Казеев 36
  • 39.