Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

5,330 views

Published on

Tokyo Web Mining #45でお話させていただいた内容です。

アブストラクト:
実験素粒子物理学においては、加速器を使った高エネルギー素粒子の衝突実験から生まれる大量のデータを分析するため、かつてよりあらゆる科学分野の中でも最もデータ量の多い領域でした。スイスのCERN研究所で行われている最新の実験、LHC(Large Hadron Collider)では、最初の2年間で、1PB(ペタバイト)のデータが生成され、その一部は昨年オープン化されました。本講演では、LHCのビッグデータがどのように解析されたのか、インフラ及びアプリケーションレベルの観点ご紹介します。特に、アプリケーションレベルにおいては、独自の統計解析ライブラリであるROOTが幅広く使われており、この講演を通じ、ROOTが現在のデータ解析パラダイムのどこに位置しているのかを参加者の皆様と議論したいと思います。

Published in: Science
  • Be the first to comment

LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)

  1. 1. Copyright 2014 Shiroyagi Corporation. All rights reserved. シバタアキラ, Ph.D. LHCにおける素粒子
 ビッグデータの解析と ROOTライブラリ 白ヤギコーポレーション Tokyo Web Mining #45
  2. 2. Ex LHC Physicist, now CEO Akira Shibata (シバタアキラ), PhD. @madyagi • 2013 -:CEO @Shiroyagi Corporation • Kamelio : News curation that learns your interests • Kamelio API: Contents Recommendation API • 2010 - 2013: Strategy Consulting @BCG • 2007 - 2010: Data Scientist @NYU • Statistical tools for Higgs discovery @LHC, CERN • 2004 - 2007: Ph.D. HEP @London University
  3. 3. Copyright 2014 Shiroyagi Corporation. All rights reserved. 3
  4. 4. Copyright 2014 Shiroyagi Corporation. All rights reserved. 4
  5. 5. Copyright 2014 Shiroyagi Corporation. All rights reserved. 5
  6. 6. Copyright 2014 Shiroyagi Corporation. All rights reserved. 6 PyData.Tokyoかなり盛り上がってます
  7. 7. -報道関係者様向け資料- PyData.Tokyo これまでの活動 30人の座席にに毎回百人近い応募 • ディープラーニング • 分散型機械学習 • データ解析インフラ などの旬なテーマを扱い、毎回その 分野で活躍するデータサイエンティ ストにご登壇いただいています。 例えば、第一回は東京大学で深層学 習研究をしている中山先生。次回は ブレインパッドの佐藤さんをお招き します。 http://pydatatokyo.connpass.com
  8. 8. -報道関係者様向け資料- PyData.Tokyoチュートリアルの様子 イベントは渋谷のデンソーアイティーラボラトリにて開催
  9. 9. Copyright 2014 Shiroyagi Corporation. All rights reserved. 9 aial.connpass.comもよろしく
  10. 10. Copyright 2014 Shiroyagi Corporation. All rights reserved. 10 これも出ます
  11. 11. Copyright 2014 Shiroyagi Corporation. All rights reserved. 11 これも出ます
  12. 12. これでました
  13. 13. Copyright 2015 Shiroyagi Corporation. All rights reserved. • HEPが浮世のデータ分析とどう違う • ATLASというさらに狭い世界の話 → でも多分いろんな意味でHEPの縮図 • 多分、中に入りすぎてたので、ちょっと細かい話とか多いかも → つまらなかったら言ってね • 理論は当時からあんまりわかっていませんでした今はもっとわからないです • 今回の登壇に際してちょっとリサーチしました → 相変わらず・・ • オープンデータはあまりありませんでした 13 本日お話したいこと 引退してから5年経ったので、お手柔らかに
  14. 14. Copyright 2015 Shiroyagi Corporation. All rights reserved. 14 2012年7月2日
  15. 15. Copyright 2015 Shiroyagi Corporation. All rights reserved. 15 物理をやってた頃の私
  16. 16. Copyright 2015 Shiroyagi Corporation. All rights reserved. 16 データ量はfb^-1で 測ります?? 重さはGeVで 測ります??
  17. 17. Copyright 2015 Shiroyagi Corporation. All rights reserved. 17 10fb-1 = 100PB??
  18. 18. Copyright 2015 Shiroyagi Corporation. All rights reserved. 18 Elastic Scattering(弾性散乱) 入った粒子が出てくるだけ、ただし力学的特徴が異なる(角度とか)
  19. 19. Copyright 2015 Shiroyagi Corporation. All rights reserved. 19 散乱断面積(Cross Section)
  20. 20. Copyright 2015 Shiroyagi Corporation. All rights reserved. 20 断面が小さい→Inelastic Scattering 出てくる粒子が、入る粒子と違うのがInelastic
 Elasticより小さい断面をめがけて衝突→反応確率は比例して小さい
  21. 21. Copyright 2015 Shiroyagi Corporation. All rights reserved. 21 更には、新しい粒子が作られる ビームのエネルギー は合計7 8TeV 高いエネルギーの交換の発生確率は更に低い = 更に小さいエリアをめがけて何回も衝突させなくてはならない E=mc2 それだけ大きいエネルギーが必要
  22. 22. Copyright 2015 Shiroyagi Corporation. All rights reserved. 22 E=mc2 ; m= E/c2 重さの単位は ev/c2 多くの場合c2は省 略される(c=1) 「素」粒子と言いながら重さは幅広い 陽子・中性子は約1GeV
  23. 23. Copyright 2015 Shiroyagi Corporation. All rights reserved. 23 ほぼ陽子の重さ (LHCのビーム) ほぼヒッグス の重さ ヒッグスを作るのは錬金術に近い
  24. 24. Copyright 2015 Shiroyagi Corporation. All rights reserved. 24 素粒子の散乱断面積は小さい Inelastic Total: 108 nb Higgs Boson: 10 pb ただし、最終的に綺麗に見え るものはもっと少ない
  25. 25. Copyright 2015 Shiroyagi Corporation. All rights reserved. 25 山手線並みのスケールのビームパイプ ここにいました
  26. 26. Copyright 2015 Shiroyagi Corporation. All rights reserved. 26
  27. 27. Copyright 2015 Shiroyagi Corporation. All rights reserved. 27 ほとんどは、粒子の進路を曲げるdipoleマグネット
  28. 28. Copyright 2015 Shiroyagi Corporation. All rights reserved. 28 Luminosityを上げるのがquadrupole
  29. 29. Copyright 2015 Shiroyagi Corporation. All rights reserved. 29 面積はbで測る、データはb-1で測る b=10-24cm2 • 108nb=10-25cm2 • 10pb=10-35cm2 • 1fb=10-39cm2 Cross Section Beam Luminosity N L=N/cm-2 • 10fb-1=10x1039cm-2 • 10fb-1=10x1039cm-2 1015 105 x = 1つの衝突が生データで1.6MB、分析レベルで0.1 0.5MB 1015x1.6MB = 1,600,000PB = 1,600EB!!
  30. 30. 100PB in three years
  31. 31. Copyright 2015 Shiroyagi Corporation. All rights reserved. 31 検出器=トラッカー+カロリーメーター トラッカー (位置を計測する) カロリーメーター (エネルギーを計測する) トラッカー (位置を計測する)
  32. 32. Copyright 2015 Shiroyagi Corporation. All rights reserved. 32 データが出てきたらまずは捨てる:トリガー 0.25% 0.008% 0.0006% 99.9995%は1秒以内に捨てる
  33. 33. Copyright 2015 Shiroyagi Corporation. All rights reserved. 33 データ(イベント)は少しずつ再構築される 計測値 (生データ) クラスに分れた 電気信号の行列 検出器レベル (ESD) 観測された位置、 方向や エネルギーの値 物理レベル (AOD) 観測された粒子 レベルの情報 分析レベル (DPD) 最終的な分析に 必要な部分だけ 取り出した情報 トリガーレベル 簡易版の物理構築 イベント選択 に使ってあと は捨てる 統計分析 様々なフォーマットがあり、かなり戸惑う しかもメモリとディスクで表現が違ったりしてスキーマが直ぐ死ぬ オンライン オフライン
  34. 34. Copyright 2015 Shiroyagi Corporation. All rights reserved. 34 GRID < クラウドコンピューティング Gridはイベントの再構築とDPDの生成のために使われる 分析は分散に向いているが、ほとんどローカルで行われる
  35. 35. Copyright 2015 Shiroyagi Corporation. All rights reserved. 35 GRID < クラウドコンピューティング 世界の大学や研究機関に3つのTierで配置されている • T0: CERNのこと。全体の20%位のキャパを有する • T1: 特に大きな研究所 - 生データのレプリカがある。
   分担してイベント再構築を行い、ESDを作る • T2: 結構いろんな大学にある。
   主にシミュレーションと、AOD→DPDを行う • T3: ローカル環境のこと
  36. 36. Copyright 2015 Shiroyagi Corporation. All rights reserved. 36 CERNはインターネットは生み出したが・・・
  37. 37. Copyright 2015 Shiroyagi Corporation. All rights reserved. 37 素粒子の実験は常にビッグデータの先端を走っていたが、イ ンターネットが発達した2000年代からは、データ量でWeb に抜かされ、技術の先端もそっちに移った感が強い • データの取扱いはファイルベースのみ • データの処理はプロセスレベルより細分化されない • 「クラウド」は巨大なバッチキュー • プログラムはシングルスレッド • 開発はFortranとC++とPythonがちょっと • 機械学習は「使ってる人もいる」くらい 自らの発明に先を越される
  38. 38. Copyright 2015 Shiroyagi Corporation. All rights reserved. 38 おりしも、CHEPが今週開催されていた
  39. 39. Copyright 2015 Shiroyagi Corporation. All rights reserved. 39
  40. 40. Copyright 2015 Shiroyagi Corporation. All rights reserved. 40 最終的に分析とは何をするの? オブジェクトレベル イベントレベル 分析(統計)レベル • 計測値の補正を行う • オブジェクトIDの精度を上げる • S/B判別の素性を作る • シグナルイベントの選択 • イベント数を数える • シミュレーションとの比較 • 計測誤差の推定 • 統計的誤差 • 検出器による誤差 • アルゴリズムによる誤差 • 理論による誤差
  41. 41. Copyright 2015 Shiroyagi Corporation. All rights reserved. 41 ROOTってなに? つまり: HEP物理学者が必要とするツー ルを雑多に詰め込んだOOデー タ解析ライブラリ 結構長く使われているので、ド キュメントはわるくない データの保存とIO ヒストグラムなど可視化 統計モデリングツール (Roofit/RooStat) 機械学習(TMVA) インタラクティブ環境 オープンソースライブラリ
  42. 42. Copyright 2015 Shiroyagi Corporation. All rights reserved. 42 インタラクティブ環境 もともとCINTというC/C++のReplだったが、最近
 clangベースになって、clingになった、いい感じ
  43. 43. Copyright 2015 Shiroyagi Corporation. All rights reserved. 43 インタラクティブ環境 10年前は Advanced だったのかも
  44. 44. Copyright 2015 Shiroyagi Corporation. All rights reserved. 44 データの保存とIO DBより少し賢いTTree形式 • イベントごとにループを回し ながらデータを取得できる • オブジェクトを書き出すこと ができる(ptrも) • ORMなしでいきなりオブジェ クトになってる テーブル型データとは互換性低 • Ntupleと呼ばれる
  45. 45. Copyright 2015 Shiroyagi Corporation. All rights reserved. 45 ヒストグラムなど可視化 かなり自由自在、matplotlibとかよりだいぶいいです
  46. 46. Copyright 2015 Shiroyagi Corporation. All rights reserved. 46 ヒストグラムなど可視化
  47. 47. Copyright 2015 Shiroyagi Corporation. All rights reserved. 47 ヒストグラムなど可視化
  48. 48. Copyright 2015 Shiroyagi Corporation. All rights reserved. 48 統計モデリングツール(Roofit/RooStat) ROOTの中でも最もよく知られているアルゴリズム
  49. 49. Copyright 2015 Shiroyagi Corporation. All rights reserved. 49 統計モデリングツール(Roofit/RooStat) 統計的因果推論のモデリング&生成ツール
  50. 50. Copyright 2015 Shiroyagi Corporation. All rights reserved. 50 我々はいつ「発見」するのか(2010年)
  51. 51. Copyright 2015 Shiroyagi Corporation. All rights reserved. 51 2011年
  52. 52. Copyright 2015 Shiroyagi Corporation. All rights reserved. 52 2012年
  53. 53. Copyright 2015 Shiroyagi Corporation. All rights reserved. 53
  54. 54. Copyright 2015 Shiroyagi Corporation. All rights reserved. 54
  55. 55. Copyright 2015 Shiroyagi Corporation. All rights reserved. 55
  56. 56. Copyright 2015 Shiroyagi Corporation. All rights reserved. 56
  57. 57. Copyright 2015 Shiroyagi Corporation. All rights reserved. 57 画像認識などでも応用される技術 http://ss.sysu.edu.cn/ ll/files/lin_sketchrecognition_emmcvpr07.pdf http://ss.sysu.edu.cn/ ll/project_objgrammar.html
  58. 58. Copyright 2015 Shiroyagi Corporation. All rights reserved. 58 統計モデリングツール(Roofit/RooStat)
  59. 59. Copyright 2015 Shiroyagi Corporation. All rights reserved. 59 RooStat 複数のモデルを組み合わせるためのフレームワーク
  60. 60. Copyright 2015 Shiroyagi Corporation. All rights reserved. 60 分析の最終段階であらゆる誤差を組み合わせることができる
  61. 61. Copyright 2015 Shiroyagi Corporation. All rights reserved. 61 http://tmva.sourceforge.net/docu/TMVAUsersGuide.pdf 機械学習(TMVA)
  62. 62. Copyright 2015 Shiroyagi Corporation. All rights reserved. 62 機械学習(TMVA) かなりHEPに特化している&しばらくメンテされてない?
  63. 63. Copyright 2015 Shiroyagi Corporation. All rights reserved. 63 ところで今日はオープンデータ祭り、 ですね
  64. 64. Copyright 2015 Shiroyagi Corporation. All rights reserved. 64 The Higgs ML challenge
  65. 65. Copyright 2015 Shiroyagi Corporation. All rights reserved. 65 The Higgs ML challenge
  66. 66. Copyright 2015 Shiroyagi Corporation. All rights reserved. 66
  67. 67. Copyright 2015 Shiroyagi Corporation. All rights reserved. 67 よく使われるのは s/sqrt(b) シグナルを増やし、
 ノイズをコントロール
  68. 68. Copyright 2015 Shiroyagi Corporation. All rights reserved. 68 The Higgs ML challenge: Leader Board
  69. 69. Copyright 2015 Shiroyagi Corporation. All rights reserved. 69 The Higgs ML challenge 今までより 10%向上
  70. 70. Copyright 2015 Shiroyagi Corporation. All rights reserved. 70 http://opendata.cern.ch/collection/ATLAS-Higgs-Challenge-2014
  71. 71. Copyright 2015 Shiroyagi Corporation. All rights reserved. 71 CERNのオープンデータの取り組み データ出してるの はCMSだけ: AODレベルデータ も公開している 開発環境も 提供していて、バ イナリフォーマッ トの読み込みがで きる
  72. 72. Copyright 2015 Shiroyagi Corporation. All rights reserved. 72
  73. 73. Copyright 2015 Shiroyagi Corporation. All rights reserved. 73
  74. 74. Copyright 2015 Shiroyagi Corporation. All rights reserved. 74
  75. 75. Copyright 2015 Shiroyagi Corporation. All rights reserved. 75
  76. 76. Copyright 2014 Shiroyagi Corporation. All rights reserved. 76
  77. 77. Copyright 2014 Shiroyagi Corporation. All rights reserved. 77
  78. 78. Copyright 2014 Shiroyagi Corporation. All rights reserved. 78
  79. 79. Copyright 2014 Shiroyagi Corporation. All rights reserved. 79

×