Фабрики данных Яндекса
для ЦЕРНа
Андрей Устюжанин
Большой Адронный Коллайдер это ...
27 км кольцо ускорения протонов до
0.999999 скорости света, сталкивающихся
40 000 000 раз в секунду на
4 больших экспериментах, объединяющих
~10 000 исследователей из
>100 стран в поисках
чего-то нового

http://bit.ly/19THIlK
3
Совместные проекты
Кластер LHCb Grid - 2011
Event Index - 2012
Event Filter - 2013

Яндекс вошел в CERN openlab в 2013

http://bit.ly/16extLj

4
Вычислительные ресурсы Grid
Вычислительные ресурсы Grid
LHCb

7
Выгрузка данных
Выгрузка данных++
Основные подсистемы
Event Index

11
Event Index / Wizard

12
Event Index / Results

13
Event Index / Dashboard

14
Event Filtering

+µ-)
(Bs→µ

15
Event Filter
Event Filter HTTP API

/api/upload_dataset
/api/train_formula
/api/find_pool
/api/get_trained_formula
/api/get_trained_formula_binary
...

17
iPython & ROOT

http://bit.ly/18svtRP

18
Пример использования API
Загрузка данных
Обучение формулы

Получение формулы

19
«Дорожная карта»
Version

Date

Event Index

0.5

Октябрь 2013

Индексация данных LHCb за 2012 год

1.0

Ноябрь 2013

Быстрый анализ выбранных событий

2.0

2014

Индексация данных LHCb 2010-2012

Version
0.5

Date
Сентябрь 2013

1.0

Ноябрь 2013

2.0

2014

Event Filter
API + Python wrappers
Выбор различных целевых функций
Baseline training & Cross validation
Графический интерфейс для исследовательских процессов
(YDF)
20
Machine Learning classics
No
Features

Target
Function
Data
Analytics

ML
Algorithm

Data
Sampling

Expert
Judgments
Collection

Domain
Knowledge

Testing

Exploitation

Yes

ML Expertise

Exploitation

21
Machine Learning pipeline
Regular Auto Update

Alerts (i.e. outdated features)
No

Production
Parameters!

Features

Yes
Target
Function

Monitoring
Exploitation

Evaluation
Data
Sampling

Expert
Judgments
Collection

Domain Knowledge

MatrixNet

No

ML Framework

Testing

Yes
22
Фабрики Данных - YDF
YDF / обучение
YDF / метрики
Заключение

упрощение наиболее частых путей и задач
сокращение (оптимизация на уровне дизайна)
ускорение (кеширование, автоматизация)
объяснение картины миры с помощью технологий

26
Спасибо за внимание
Андрей Устюжанин
Руководитель совместных
проектов с ЦЕРН
к.ф.-­‐м.н.

h(ps://www.facebook.com/anaderix

anaderi@yandex-team.ru

28

Ya c talk_02_10