Современная наука немыслима без компьютерной обработки информации. Поток обрабатываемых экспериментальных данных увеличивается с каждым годом. Например, на Большом адронном коллайдере (БАК), самом мощном на текущий момент ускорителе элементарных частиц, поток данных достигает 1 ПБ/день и сопоставим с Netflix.
В своём докладе я расскажу про систему обработки данных эксперимента LHCb в ЦЕРНе, и как в ней применяется машинное обучение. Иными словами, зачем для изучения Вселенной требуются программисты.
2014.12.23 Николай Самохвалов, Ещё раз о JSON(b) в PostgreSQL 9.4Nikolay Samokhvalov
Тип данных JSONb – это, пожалуй, самая яркая новинка PostgreSQL 9.4, который вышел 18 декабря 2014.
Уже немало докладов и статей посвящено этому типу данных, работе с ним и индексации. Но как правило, информация в них перегружена специфичными для PostgreSQL терминами.
Запутались в моделях данных? В том, какие индексы могут вам помочь ускорить вашу работу с СУБД?
Этот доклад помогает сложить паттерн. Он для тех, кто начал использовать PostgreSQL совсем недавно или только планирует работать с ним. В нём рассказано о месте PostgreSQL в современном мире СУБД, о борьбе различных моделей данных за место под солнцем на этом рынке и то, как это отразилось на развитие Postgres.
Помимо прочего, рассказывается о том, какие вообще бывают деревья, как они помогают ускорять базы данных и почему PostgreSQL — просто райский лес для деревьев самого разного типа :)
См. также видео: http://postgresmen.ru/meetup/2014-12-23-parallels
2014.12.23 Николай Самохвалов, Ещё раз о JSON(b) в PostgreSQL 9.4Nikolay Samokhvalov
Тип данных JSONb – это, пожалуй, самая яркая новинка PostgreSQL 9.4, который вышел 18 декабря 2014.
Уже немало докладов и статей посвящено этому типу данных, работе с ним и индексации. Но как правило, информация в них перегружена специфичными для PostgreSQL терминами.
Запутались в моделях данных? В том, какие индексы могут вам помочь ускорить вашу работу с СУБД?
Этот доклад помогает сложить паттерн. Он для тех, кто начал использовать PostgreSQL совсем недавно или только планирует работать с ним. В нём рассказано о месте PostgreSQL в современном мире СУБД, о борьбе различных моделей данных за место под солнцем на этом рынке и то, как это отразилось на развитие Postgres.
Помимо прочего, рассказывается о том, какие вообще бывают деревья, как они помогают ускорять базы данных и почему PostgreSQL — просто райский лес для деревьев самого разного типа :)
См. также видео: http://postgresmen.ru/meetup/2014-12-23-parallels
This document contains a serial number and activation code for CorelDRAW Graphics Suite X6. The serial number listed is DR16R22ZFHSFUM-DB6QJYR-R7L4DXC and the activation code is B7C8-48E5-4665-CB70EF10.
Eva Perón nació en 1922 en Argentina y trabajó como actriz hasta conocer a Juan Perón, con quien se casó en 1945. Una vez que Perón fue elegido presidente en 1946, Eva se involucró en la política y fundó la Fundación Eva Perón para ayudar a los necesitados. Se convirtió en una figura popular pero murió en 1953 a los 31 años debido a cáncer.
This very short document does not contain enough substantive information to summarize in 3 sentences or less. It consists of only a title and the word "test" repeated multiple times, providing no context or meaningful content that could be extracted and condensed into a high-level summary.
This very short document does not contain enough substantive information to summarize in 3 sentences or less. It consists of only the word "test" repeated multiple times without any additional context.
This 3 line poem wishes the recipient of the message to have a day that brings a very special feeling to their heart. It expresses a hope for the reader to experience something meaningful or joyful on this particular day. In a concise yet heartfelt way, the poem aims to spread positive feelings to others.
Slide sobre uma simulação de uma campanha para o lançamento de um concurso mundial para promover um jogo virtual denomindado Immortal Knights. O mesmo foi desenvolvido para uma disciplina do Curso de Publicidade e Propaganda
El documento describe los elementos esenciales de un aula virtual exitosa, incluyendo la distribución de información, intercambio de ideas, aplicación de conocimientos, evaluación y seguridad. Un aula virtual debe permitir no solo la distribución de material sino también interactividad y comunicación entre estudiantes y profesores.
This 3 sentence document discusses testing. It was authored by Rachel Tidball and contains repetitive text focused on testing. The document provides limited meaningful information in just a few short sentences and words.
This very short document appears to be a test. It contains the word "Test" repeated multiple times and was authored by Nicole. The content is minimal and does not provide much meaningful information to summarize.
El documento presenta la agenda semanal del 10 al 14 de febrero de 2014 para el Instituto Santa María Goretti. La agenda incluye actividades diarias como inscripción de candidatos para el gobierno escolar, reuniones de directivas y calidad, y reuniones del club de filosofía. También presenta las horas de entrada y salida de los estudiantes, y los valores semanales de democracia y honestidad.
El documento describe una actividad de un grupo de estudiantes sobre reproducción humana. El grupo está formado por expertos en métodos anticonceptivos, enfermedades de transmisión sexual y reproducción asistida. El grupo recibe 12 casos sobre los que deben recomendar el mejor método anticonceptivo, protección contra ETS o tratamiento de fertilidad según corresponda.
This very short document appears to be a test and does not contain much substantive information to summarize in 3 sentences or less. It consists of the word "Test" repeated multiple times and the author's name but no other details.
This document contains a serial number and activation code for CorelDRAW Graphics Suite X6. The serial number listed is DR16R22ZFHSFUM-DB6QJYR-R7L4DXC and the activation code is B7C8-48E5-4665-CB70EF10.
Eva Perón nació en 1922 en Argentina y trabajó como actriz hasta conocer a Juan Perón, con quien se casó en 1945. Una vez que Perón fue elegido presidente en 1946, Eva se involucró en la política y fundó la Fundación Eva Perón para ayudar a los necesitados. Se convirtió en una figura popular pero murió en 1953 a los 31 años debido a cáncer.
This very short document does not contain enough substantive information to summarize in 3 sentences or less. It consists of only a title and the word "test" repeated multiple times, providing no context or meaningful content that could be extracted and condensed into a high-level summary.
This very short document does not contain enough substantive information to summarize in 3 sentences or less. It consists of only the word "test" repeated multiple times without any additional context.
This 3 line poem wishes the recipient of the message to have a day that brings a very special feeling to their heart. It expresses a hope for the reader to experience something meaningful or joyful on this particular day. In a concise yet heartfelt way, the poem aims to spread positive feelings to others.
Slide sobre uma simulação de uma campanha para o lançamento de um concurso mundial para promover um jogo virtual denomindado Immortal Knights. O mesmo foi desenvolvido para uma disciplina do Curso de Publicidade e Propaganda
El documento describe los elementos esenciales de un aula virtual exitosa, incluyendo la distribución de información, intercambio de ideas, aplicación de conocimientos, evaluación y seguridad. Un aula virtual debe permitir no solo la distribución de material sino también interactividad y comunicación entre estudiantes y profesores.
This 3 sentence document discusses testing. It was authored by Rachel Tidball and contains repetitive text focused on testing. The document provides limited meaningful information in just a few short sentences and words.
This very short document appears to be a test. It contains the word "Test" repeated multiple times and was authored by Nicole. The content is minimal and does not provide much meaningful information to summarize.
El documento presenta la agenda semanal del 10 al 14 de febrero de 2014 para el Instituto Santa María Goretti. La agenda incluye actividades diarias como inscripción de candidatos para el gobierno escolar, reuniones de directivas y calidad, y reuniones del club de filosofía. También presenta las horas de entrada y salida de los estudiantes, y los valores semanales de democracia y honestidad.
El documento describe una actividad de un grupo de estudiantes sobre reproducción humana. El grupo está formado por expertos en métodos anticonceptivos, enfermedades de transmisión sexual y reproducción asistida. El grupo recibe 12 casos sobre los que deben recomendar el mejor método anticonceptivo, protección contra ETS o tratamiento de fertilidad según corresponda.
This very short document appears to be a test and does not contain much substantive information to summarize in 3 sentences or less. It consists of the word "Test" repeated multiple times and the author's name but no other details.
4. Обо мне
› Выпускник Московского физико-технического института
› Выпускник Школы анализа данных Яндекса
› Аспирант на факультете компьютерных наук ВШЭ
› Работаю в Яндексе над совместными data science проектами с Европейской
организаций по ядерным исследованиям
Image: http://www.futuretimeline.net/, Video: http://www.businessinsider.com/ 4
5. План
› Что изучает физика?
› Как она изучает?
› Как ей в этом помогают компьютерные технологии и при чём здесь Яндекс?
Никита Казеев 5
6. Что такое физика?
› Получение новых знаний о мире
› Чем-то похожа на тестирование!
› Теория описывает мир – предсказывает эксперимент
› Эксперимент стремится проверить теорию
Никита Казеев 6
7. Зачем нам физика?
Они [компьютеры] стали возможными благодаря открытиям в фундаменталь-
ной физике, [...] развитию математической логики и потребности физиков-
ядерщиков в 1930е считать частицы.
C. H. Llewellyn Smith, директор ЦЕРНа: янв. 1994 – янв. 1999
Никита Казеев 7
11. Тёмная материя
› Наблюдаемые нами гравитационные
эффекты не согласуются с
наблюдаемым нами во Вселенной
количеством материи
› Предположительно, существуют
неизвестные стабильные,
массивные, электрически
нейтральные частицы, из которых
состоит тёмная материя
Иллюстрация: xkcd 11
12. Где антиматерия?
› Мы почти не наблюдаем
антиматерию в природе
› Мы умеем получать антиматерию в
лаборатории
› Согласно текущей теории, при
Большом взрыве должно было
родиться примерно одинаково
материи и антиматерии
Иллюстрация: xkcd 12
15. Стандартная модель
› Наше понимание физики на текущий
момент
› Не противоречит экспериментам
› Найти отклонение - мечта каждого
физика
Никита Казеев 15
16. Квантовая теория
Думаю, я смело могу сказать, что квантовой механики никто не понимает.
Ричард Фейнман, один из основоположников квантовой теории, Нобелевский
лауреат по физике 1965 г.
Никита Казеев 16
19. Проверка новой гипотезы X
› Выбрать нулевую (самую проверенную, консервативную) гипотезу
› Предложить такие исходы, которые должны происходить очень редко в
соответствии с нулевой гипотезой, и гораздо чаще – в соответствии с
гипотезой X
› Измерить число событий и сделать вывод, какая гипотеза верна
Никита Казеев 18
26. Галилей, XVI в.
› Опроверг теорию Аристотеля, о том,
что более тяжелые тела падают
быстрее
› Измерял на глаз
› Вёл заметки на бумаге
Иллюстрация: heritage-history.com 25
28. LHCb, 2016
› Регистрирует 40 млн. столкновений
в секунду
› Использует компьютерную систему
для записи, фильтрации и анализа
данных
Иллюстрация: CERN 27
30. Европейская организация по ядерным
исследованиям (ЦЕРН)
› Крупнейшая в мире лаборатория по
физике частиц
› Институты из более 100 стран
› Дипломатический иммунитет у
сотрудников (не у меня)
› Лучшая столовая из всех, где я бывал
Никита Казеев 29
31. Миссия ЦЕРНа
Миссия ЦЕРНа была утверждена конвенцией в 1954 и основывается на 4-х
принципах:
› Наука. Поиск ответов на вопросы об устройстве Вселенной
› Технологии. Развитие технологий
› Коллаборация. Международно сотрудничество через науку
› Образование. Подготовка учёных завтрашнего дня
Никита Казеев 30
32. Миссия Яндекса (выдержка)
› Яндекс — технологическая компания. В основе наших сервисов лежат
сложные, уникальные, трудно воспроизводимые технологии. Именно они
позволяют нам делать то, что еще некоторое время назад люди приняли бы за
волшебство.
› Наука. Нам удалось собрать команду специалистов во многих областях науки
— в математике, анализе данных, программировании, лингвистике и других
дисциплинах. Вычислительные возможности и алгоритмы Яндекса используют
и наши партнеры для проведения своих научных исследований — например, в
области ядерных исследований и геологоразведки.
Никита Казеев 31
33. Зачем большие данные?
Очень редкие процессы, вероятность < 10−10
.
1 байт на 10 Гб.
Задача – их посчитать.
Никита Казеев 32
35. Эффективность фильтрации
› При отборе теряется известная доля нужных событий
› Сделать фильтрацию точнее позволяет получить тот же физический результат
за меньшее время работы детектора
Никита Казеев 34
37. Аппаратный триггер (LHCb)
› Быстро, грубо отбирает события
› 40 МГц → 1 МГц
Иллюстрация: L0 Workshop 11 Jan 2006, J. Laubser et al. 36
38. Триггерная ферма (LHCb)
› Сеть 100 Гб/с
› ∼ 1800 узлов
› ∼ 25000 физических CPU
› ∼ 2 Гб ОЗУ на ядро
Иллюстрация: University College Dublin, данные: https://cds.cern.ch/record/2011571/files/LHCb-TALK-2015-064.pdf 37
40. Программный триггер (LHCb)
› Использует информацию о треках,
вершинах, типах частиц
› 1 МГц → 10 КГц
› Использует машинное обучение!
Никита Казеев 39
41. Машинное обучение
› Задача – сделать алгоритм, отличающий интересные события от неинтересных
› Можно вручную
› А можно сгенерировать примеры интересных событий и натренировать
классификатор.
Никита Казеев 40
42. Топологический триггер [Яндекс]
› Выбирает класс распадов 𝐵-адрона с хотя бы 2 заряженными частицами
› Используется 60% анализов LHCb как первичная ступень отбора событий
› Эффективность увеличена от 5 до 50% в зависимости от канала распада
Никита Казеев 41
44. Топологический триггер [Яндекс]
› Выбирает класс распадов 𝐵-адрона с хотя бы 2 заряженными частицами
› Используется 60% анализов LHCb как первичная ступень отбора событий
› Эффективность увеличена от 5 до 50% в зависимости от канала распада в
сравнении с базовым решением
› N. B. 50% улучшение подразумевает, что физический результат, полученный за
3 года сбора данных старой моделью, мог бы быть получен за 2 года сбора
данных новой моделью.
Никита Казеев 43
45. Worldwide LHC Computing Grid
› Ресурсы для обработки данных БАК
› ∼ 170 дата-центров по всему миру
› Работают на кастомном открытом ПО
› Яндекс тоже предоставляет датацентр
Никита Казеев 44
46. LHCb GRID usage в числах [2015]
› ∼ 5𝑒6 CPU
› 19 Пб на дисках
› 34.9 Пб на магнитных лентах
Никита Казеев 45
47. Предсказание использования данных [Яндекс]
› GRID позволяет хранить данные на жестких дисках (дорого) и магнитных
лентах (дешево)
› Мы использовали машинное обучение, чтобы предсказать, какие файлы не
буду востребованы
› при ошибке в 3% и минимальном числе реплик оставшихся на HDD файлов
равном 2, можно освободить 40% дискового пространства
Никита Казеев 46
48. Hands-on
Можно прямо сейчас попробовать анализ физических данных. Ничего
устанавливать не требуется thanks to Everware.
https://clck.ru/AHgz9
Никита Казеев 47
49. Заключение
Большие данные и машинное обучение качественно
расширили круг доступных для изучения
физических явлений.
Никита Казеев 48
52. Проекты Яндекса для физики
› Специализированные алгоритмы ML –
https://github.com/yandexdataschool/hep_ml
› A WLCG site – https://indico.cern.ch/event/443234/contributions/
1098071/subcontributions/98322/attachments/1157845/1665533/
LHCC-20150922-LHCb.pdf
› Поисковая система по данным LHCb – http:
//iopscience.iop.org/article/10.1088/1742-6596/664/3/032019
› Система для мониторинга –
https://cds.cern.ch/record/2229730?ln=en
Никита Казеев 51
53. Полезные ссылки
› Объяснение fixion’а –
https://www.explainxkcd.com/wiki/index.php/1621:_Fixion
› Текущее состояние науки про отличие материи и антиматерии –
http://web.mit.edu/physics/news/physicsatmit/physicsatmit_
06_sciollafeature.pdf
› Объяснение фундаментальных взаимодействий “на пальцах” –
https://www.nobelprize.org/nobel_prizes/physics/laureates/
2004/popular.html
Никита Казеев 52
54. Ссылки на код с примерами
› Browser-based toy physics data analysis – http://www.hep.manchester.ac.
uk/u/parkes/LHCbAntimatterProjectWeb/LHCb_Matter_Antimatter_
Asymmetries/Homepage.html
› And another –
https://github.com/everware/everware-dimuon-example
Никита Казеев 53