LHCにおける素粒子ビッグデータの解析とROOTライブラリ（Big Data Analysis at LHC and ROOT）

Copyright 2014 Shiroyagi Corporation. All rights reserved.
シバタアキラ, Ph.D.
LHCにおける素粒子 
ビッグデータの解析と
ROOTライブラリ
白ヤギコーポレーション
Tokyo Web Mining #45

Ex LHC Physicist, now CEO
Akira Shibata (シバタアキラ), PhD. @madyagi
• 2013 -：CEO @Shiroyagi Corporation
• Kamelio : News curation that learns your interests
• Kamelio API: Contents Recommendation API
• 2010 - 2013: Strategy Consulting @BCG
• 2007 - 2010: Data Scientist @NYU
• Statistical tools for Higgs discovery @LHC, CERN
• 2004 - 2007: Ph.D. HEP @London University

PyData.Tokyoかなり盛り上がってます

-報道関係者様向け資料-
PyData.Tokyo これまでの活動
30人の座席にに毎回百人近い応募
• ディープラーニング
• 分散型機械学習
• データ解析インフラ
などの旬なテーマを扱い、毎回その
分野で活躍するデータサイエンティ
ストにご登壇いただいています。
例えば、第一回は東京大学で深層学
習研究をしている中山先生。次回は
ブレインパッドの佐藤さんをお招き
します。
http://pydatatokyo.connpass.com

-報道関係者様向け資料-
PyData.Tokyoチュートリアルの様子
イベントは渋谷のデンソーアイティーラボラトリにて開催

aial.connpass.comもよろしく

これも出ます

Copyright 2015 Shiroyagi Corporation. All rights reserved.
• HEPが浮世のデータ分析とどう違う
• ATLASというさらに狭い世界の話
→ でも多分いろんな意味でHEPの縮図
• 多分、中に入りすぎてたので、ちょっと細かい話とか多いかも
→ つまらなかったら言ってね
• 理論は当時からあんまりわかっていませんでした今はもっとわからないです
• 今回の登壇に際してちょっとリサーチしました
→ 相変わらず・・
• オープンデータはあまりありませんでした
13
本日お話したいこと
引退してから５年経ったので、お手柔らかに

2012年7月2日

物理をやってた頃の私

データ量はfb^-1で
測ります??
重さはGeVで
測ります??

10fb-1 = 100PB??

Elastic Scattering（弾性散乱）
入った粒子が出てくるだけ、ただし力学的特徴が異なる（角度とか）

散乱断面積（Cross Section）

断面が小さい→Inelastic Scattering
出てくる粒子が、入る粒子と違うのがInelastic 
Elasticより小さい断面をめがけて衝突→反応確率は比例して小さい

更には、新しい粒子が作られる
ビームのエネルギー
は合計7 8TeV
高いエネルギーの交換の発生確率は更に低い
＝
更に小さいエリアをめがけて何回も衝突させなくてはならない
E=mc2
それだけ大きいエネルギーが必要

E=mc2 ; m= E/c2
重さの単位は ev/c2
多くの場合c2は省
略される（c=1）
「素」粒子と言いながら重さは幅広い
陽子・中性子は約1GeV

ほぼ陽子の重さ
（LHCのビーム）
ほぼヒッグス
の重さ
ヒッグスを作るのは錬金術に近い

素粒子の散乱断面積は小さい
Inelastic Total: 108 nb
Higgs Boson: 10 pb
ただし、最終的に綺麗に見え
るものはもっと少ない

山手線並みのスケールのビームパイプ
ここにいました

ほとんどは、粒子の進路を曲げるdipoleマグネット

Luminosityを上げるのがquadrupole

面積はbで測る、データはb-1で測る
b=10-24cm2
• 108nb=10-25cm2
• 10pb=10-35cm2
• 1fb=10-39cm2
Cross Section Beam Luminosity N
L=N/cm-2
• 10fb-1=10x1039cm-2
• 10fb-1=10x1039cm-2
1015
105
x =
1つの衝突が生データで１.6MB、分析レベルで0.1 0.5MB
1015x1.6MB = 1,600,000PB = 1,600EB!!

検出器＝トラッカー＋カロリーメーター
トラッカー
（位置を計測する）
カロリーメーター
（エネルギーを計測する）
トラッカー
（位置を計測する）

データが出てきたらまずは捨てる：トリガー
0.25%
0.008%
0.0006%
99.9995%は１秒以内に捨てる

データ（イベント）は少しずつ再構築される
計測値
（生データ）
クラスに分れた
電気信号の行列
検出器レベル
（ESD)
観測された位置、
方向や
エネルギーの値
物理レベル
（AOD)
観測された粒子
レベルの情報
分析レベル
（DPD)
最終的な分析に
必要な部分だけ
取り出した情報
トリガーレベル
簡易版の物理構築
イベント選択
に使ってあと
は捨てる
統計分析
様々なフォーマットがあり、かなり戸惑う
しかもメモリとディスクで表現が違ったりしてスキーマが直ぐ死ぬ
オンライン
オフライン

GRID < クラウドコンピューティング
Gridはイベントの再構築とDPDの生成のために使われる
分析は分散に向いているが、ほとんどローカルで行われる

GRID < クラウドコンピューティング
世界の大学や研究機関に3つのTierで配置されている
• T0: CERNのこと。全体の20％位のキャパを有する
• T1: 特に大きな研究所 - 生データのレプリカがある。 
分担してイベント再構築を行い、ESDを作る
• T2: 結構いろんな大学にある。 
主にシミュレーションと、AOD→DPDを行う
• T3: ローカル環境のこと

CERNはインターネットは生み出したが・・・

素粒子の実験は常にビッグデータの先端を走っていたが、イ
ンターネットが発達した2000年代からは、データ量でWeb
に抜かされ、技術の先端もそっちに移った感が強い
• データの取扱いはファイルベースのみ
• データの処理はプロセスレベルより細分化されない
• 「クラウド」は巨大なバッチキュー
• プログラムはシングルスレッド
• 開発はFortranとC++とPythonがちょっと
• 機械学習は「使ってる人もいる」くらい
自らの発明に先を越される

おりしも、CHEPが今週開催されていた

最終的に分析とは何をするの？
オブジェクトレベル
イベントレベル
分析（統計）レベル
• 計測値の補正を行う
• オブジェクトIDの精度を上げる
• S/B判別の素性を作る
• シグナルイベントの選択
• イベント数を数える
• シミュレーションとの比較
• 計測誤差の推定
• 統計的誤差
• 検出器による誤差
• アルゴリズムによる誤差
• 理論による誤差

ROOTってなに？
つまり：
HEP物理学者が必要とするツー
ルを雑多に詰め込んだOOデー
タ解析ライブラリ
結構長く使われているので、ド
キュメントはわるくない
データの保存とIO
ヒストグラムなど可視化
統計モデリングツール
（Rooﬁt/RooStat）
機械学習（TMVA)
インタラクティブ環境
オープンソースライブラリ

もともとCINTというC/C++のReplだったが、最近 
clangベースになって、clingになった、いい感じ

10年前は Advanced だったのかも

データの保存とIO
DBより少し賢いTTree形式
• イベントごとにループを回し
ながらデータを取得できる
• オブジェクトを書き出すこと
ができる（ptrも）
• ORMなしでいきなりオブジェ
クトになってる
テーブル型データとは互換性低
• Ntupleと呼ばれる

かなり自由自在、matplotlibとかよりだいぶいいです

統計モデリングツール（Rooﬁt/RooStat）
ROOTの中でも最もよく知られているアルゴリズム

統計的因果推論のモデリング＆生成ツール

我々はいつ「発見」するのか（2010年）

2011年

2012年

画像認識などでも応用される技術
http://ss.sysu.edu.cn/ ll/ﬁles/lin_sketchrecognition_emmcvpr07.pdf
http://ss.sysu.edu.cn/ ll/project_objgrammar.html

RooStat
複数のモデルを組み合わせるためのフレームワーク

分析の最終段階であらゆる誤差を組み合わせることができる

http://tmva.sourceforge.net/docu/TMVAUsersGuide.pdf

かなりHEPに特化している＆しばらくメンテされてない？

ところで今日はオープンデータ祭り、
ですね

The Higgs ML challenge

よく使われるのは
s/sqrt(b)
シグナルを増やし、 
ノイズをコントロール

The Higgs ML challenge: Leader Board

今までより
１0%向上

http://opendata.cern.ch/collection/ATLAS-Higgs-Challenge-2014

CERNのオープンデータの取り組み
データ出してるの
はCMSだけ：
AODレベルデータ
も公開している
開発環境も
提供していて、バ
イナリフォーマッ
トの読み込みがで
きる

LHCにおける素粒子ビッグデータの解析とROOTライブラリ（Big Data Analysis at LHC and ROOT）

More Related Content

What's hot

Viewers also liked

Similar to LHCにおける素粒子ビッグデータの解析とROOTライブラリ（Big Data Analysis at LHC and ROOT）

More from Akira Shibata

LHCにおける素粒子ビッグデータの解析とROOTライブラリ（Big Data Analysis at LHC and ROOT）