Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性

8,721 views

Published on

機械学習はそもそも汎用的な枠組みであり基本的には対象分野に依らず利活用できる。従って、分野を限定して物質科学に機械学習を活用するなどと言う場合、その本質的難所の大部分は、有効な変量の設計・変換・選択・交互作用・線形性などに関する、いわゆるfeature engineeringの問題に帰する。特に、科学研究では端的な説明因子や共通パターンの探究こそが目的であることが多く、その場しのぎではない方法論が期待されている。本発表では、医薬品、機能制御剤、有機EL材料、食品、化粧品、と波及範囲が広い有機低分子について、その物性の予測と生物活性の予測の違いを例に、関わってきた問題・方法・課題について紹介する。

http://ibisml.org/ibis2016/session3/

Published in: Science
  • Be the first to comment

科学と機械学習のあいだ:変量の設計・変換・選択・交互作用・線形性

  1. 1. /361 科学と機械学習のあいだ:
 変量量の設計・変換・選択・交互作⽤用・線形性 北北海道⼤大学・JSTさきがけ takigawa@ist.hokudai.ac.jp 瀧川    ⼀一学 2016.11.18  @  第19回情報論論的学習理理論論ワークショップ  (IBIS2016)
  2. 2. /362 ⾃自⼰己紹介:瀧川  ⼀一学  (たきがわ  いちがく) 北北海道⼤大学・情報科学研究科 http://art.ist.hokudai.ac.jp 参考)  1974  Turing  Award  Lecture  “Computer  Programming  as  an  Art”  (Don  Knuth) ⼤大規模知識識処理理研究室:  湊  真⼀一  教授・瀧川(准教授)・⽯石畠正和  特任助教 ScienceとEngineeringを   つなぐ「Art」を求めて https://doi.org/10.1145/361604.361612
  3. 3. /363 活性あり(active):  1,737化合物 活性なし(inactive):  26,895化合物 https://pubchem.ncbi.nlm.nih.gov/bioassay/41 前⽴立立腺癌細胞株PC3に対する成⻑⾧長阻害アッセイデータ 何がこの差を分かつのかの作⽤用機序は複雑すぎてもはやモデリング困難なので
 データから統計学的に”使える”法則性を同定したい…。(構造活性相関/QSAR)
  4. 4. /364 表現の問題:特徴量量、説明変数、素性、記述⼦子? Atom  +  Bond SYBYL  MOL2 Pharmacophore O N N NH NHN N N CH3 CH3 Imatinib  (CID  5291) Conformers  in  PubChem3D 1 2 3 284 Molecular  Graph  Representations (実際は通常Implicit  Hydrogenを付加) … 取り得る⽴立立体配座は
 たくさんある… Molecular  Descriptors (variations:  constitutional,  topological,  atom   pairs,  geometrical,  electronic,  thermodynamical,   physicochemical,  WHIM,  fingerprints,  RDF,  
 autocorrelations,  functional  groups,  structural   keys,  properties,  interaction  fields,  …) 幾何的構造、分⼦子量量、疎⽔水性(LogP)、HOMO/ LUMO、電気陰性度度、置換基定数、…  (たくさん) 抗悪性腫瘍剤            (チロシンキナーゼ
 インヒビター)
  5. 5. /365 タスク・対象に依って有効な特徴量量は⼀一般に異異なる。 [Ramakrishnan+  2014]  Sci  Data.  2014  Aug  5;1:140022   Quantum  chemistry  structures  and  properties  of  134  kilo  molecules. C,O,N,Fを9個まで組合せて化学的に可能な全133,885分⼦子の15物性を計算したデータ
 (例例えば、C7H10O2で6,095個の⽴立立体異異性体が存在  →  部分グラフ特徴ではダメそう 😣) つまり特徴設計には「銀の弾丸」はなさそう? (c.f.  “Ugly  duckling  theorem”  渡辺  慧,  1969)
  6. 6. /366 どういう特徴量量を使うかは対象問題ごとに専⾨門的観点で(?)決めている つまり… 多くの場合、対象問題の性質を「機械」が学習するのではなく
 「機械学習ユーザ」が学習している状態  😫 本⽇日のテーマ:  The  Art  of  Feature  Engineering "Applied  machine  learning"  is  basically  feature  engineering.   ̶— Andrew  Ng Feature  Engineering  is  the  next  buzz  word  after  big  data.   ̶—  Nayyar  A.  Zaid   私の思う「機械学習」の理理想像😆:
 可能なかぎり⼈人間担当部分はサボれる汎⽤用技術(“機械学習”なのだから!)   →  今回は現状で機械学習側に蓄積されている「Art」を整理理して紹介
  7. 7. /367 合成特徴量量 基礎特徴量量 潜在的な交絡因⼦子(confounder)を⾒見見逃すことにより、誤った帰結を得ることを 防ぐ意味でもよさそう? ⽬目指すゴール:ある種の「表現学習(特徴学習)」 超⼤大規模な変数候補プール 予測モデル 既存のもの・思いついたものを   とりあえずすべて⼊入れておく • システマティックに⽣生成 • 特徴量量の選択や⾼高次合成   • モデルの⽣生成  (仮説⽣生成)   • モデルの選択と評価 ⼈人間担当 機械担当   “機械学習” “機械学習”よ、あとは任せた。   よしなにやってくれい!! 現状で(機械学習ユーザにとって)ありがたい在り⽅方
  8. 8. /368 本⽇日の話の構成 データ駆動科学とAbduction/Induction、ケーススタディ 線形性と交互作⽤用 交互作⽤用の取込み:  多項式回帰,  ⼀一般化加法モデル,  FM,  ⽊木型回帰 回帰森/決定DAG:  RF,  GBM/MART/AnyBoost,  XGBoost,  RGF,  DJ 正則化と変数選択:  Best  Subset回帰とLASSO,  SCAD,  MC+,  SIS 安定性の対処:  Stability  Selection  (aka  Randomized  LASSO) 交互作⽤用から合成特徴量量へ 超⾼高次元の困難:  Chance  Correlation,  Concentration  of  Measures 縮約合成量量:  主成分回帰,  PLS回帰,  教師付きPCA,  t-‐‑‒SNE,  Embedding(2vec) ランダマイズド合成量量:  RP/ELM/RC,  ExtraTrees,  VR-‐‑‒Trees メタ特徴量量:  Stacked  Generalization  (aka  Stacking/Blending) 変数変換探索索:  ACE  (Alternative  Conditional  Expectations) 特徴集合の妥当性評価:  AD(Applicability  Domain),  Y-‐‑‒Scrambling  Test
  9. 9. 今⽇日の話の裏裏役者:Leo  Breiman  (1928-‐‑‒2005) • CART  (Classification  and  Regression  Trees),  PIMPLE   • Random  Forest   • Arcing  (aka  Boosting)   • Bagging,  Pasting   • ACE  (Alternative  Conditional  Expectations)   • Stacked  Generalization  (aka  Stacking/Blending)   • Nonnegative  Garrote  (LASSOの前⾝身  for  Subset回帰)   • Instability  /  Stabilization  in  Model  Selection   • Shannon-‐‑‒McMillan-‐‑‒Breiman  Theorem  (漸近等分割性)   • Kelly-‐‑‒Breiman  Strategy  (最適な定⽐比例例戦略略) • UC  Berkeley名誉教授   • 2005  SIGKDD  Innovation  Award   • 元々はProbability  Theorist If  statistics  is  an  applied  field  and  not  a  minor  branch  of  mathematics,  then   99%  of  the  published  papers  are  useless  exercises.     ("Reflections  after  refereeing  papers  for  NIPS”,  The  Mathematics  of  Generalization,  Ed.  D.H.  Wolpert,  1995) https://en.wikipedia.org/wiki/File:Leo_Breiman.jpg
  10. 10. /3610 データ駆動科学とAbduction/Induction 科学では関⼼心ある活性を規定している説明因⼦子を知りたい… データ駆動の暗黙の仮定:その説明因⼦子は説明変数/記述⼦子の合成量量 (還元論論的)科学:複雑な現象や性質の原理理を単純明解に説明したい 説明変数/記述⼦子をどうするかがかなりの⼤大問題!! Hypotheses/Axioms Experimental  Facts deduction abduction induction The grand aim of science is to cover the greatest number of experimental facts by logical deduction from the smallest number of hypotheses or axioms. (Albert Einstein)
  11. 11. /3611 使えそうな量量の多数候補から”変数選択”を通して探索索 対象:  ⼆二元化合物半導体の結晶構造(+エネルギー差)予測  (対象82個) 14個(候補23個)のprimary  features  (原⼦子A-‐‑‒原⼦子B) 閃亜鉛鉱   構造(ZB) ウルツ鉱   構造(WZ) 岩塩構造   (RS) 様々な変換(和,差,積,指数,⼆二乗,etc)で   多数の合成特徴量量を作成  (10000変数) 1. LASSOで有効変数をpre-‐‑‒select   2. 全探索索Subset回帰(Best  Subset回帰) Case  Study:  PRL  114,  105503,  2015 →  こっちは最終的には不不使⽤用
  12. 12. /3612 対象:  ⼆二元化合物半導体の結晶構造(+エネルギー差)予測 例例2)  EhとC  →  要件3にviolate!   論論⽂文で提案された記述⼦子としての4要件 1. 対象材料料やその活性を発現する素過程
 をよく特徴づける量量であること   2. 活性が全く異異なる材料料では全く異異なる
 値をとる量量であること   3. 予測したい量量を計算するのと同程度度の
 時間のかかる量量とならないこと   4. 記述⼦子の数は性能が出る範囲で可能な
 限り少なくすること →  要件2,4にviolate!  
      (KRRでも精度度上がらない) 例例1)  原⼦子番号ペア(ZA,ZB)   使えそうな量量の多数候補から”変数選択”を通して探索索 Case  Study:  PRL  114,  105503,  2015
  13. 13. /3613 論論⽂文の⼿手続きで⾒見見つかった特徴量量  (3つの合成特徴量量の線形回帰) 使えそうな量量の多数候補から”変数選択”を通して探索索 Case  Study:  PRL  114,  105503,  2015 • この合成特徴量量に基づく線形回帰モデルは背後の科学的法則性に ついての良良いモデルと⾔言えるのだろうか?  (解釈性や普遍性は?)   • 例例えば「機械学習的に⾯面⽩白くない」と無視して良良いのだろうか? 私の当⾯面の(技術論論的)関⼼心
  14. 14. /3614 何らかの「変数間の”絡み”」(交互作⽤用=interaction)の表現が必要 線形性と交互作⽤用 他の変数の値と独⽴立立に効果を与える 画素iの輝度度 画素jの輝度度 線形モデルでは他の変数値に依存した条件付きの変数値変動は 表現されない  (e.g.  XORやParityの学習) 整流流 が1増えたら が        増える
  15. 15. /3615 多項式回帰,  ⼀一般化加法モデル(GAM),  FM,  … 線形モデル  +  交互作⽤用項  (e.g.  Factorization  Machines) ⺟母数に関しては線形のまま:積項を合成特徴量量として加えた線形学習と等価 元の特徴量量 応答 回帰係数 合成特徴量量 合成特徴量量 • ⾼高次交互作⽤用  (PolyReg)
 • ⾮非線形変換  (何でもあり?)
 • 基底関数変換  (GAM)

  16. 16. http://playground.tensorflow.org/  (by  Big  Picture  group,  Google) 合成特徴量量 疑問:変数間の絡みを明⽰示的に与えるべきか、学習するべきか?
  17. 17. 「うずまき」問題で合成特徴量量を⼀一切切inputせずにArchitecture   Engineeringのみで頑張るのは、学習時間もかかるし結構ツラかった…
 (or  瀧川の⿊黒魔法量量が⾜足りないだけ… 😣) 「殻」 「XOR」 「線形分離離可」「うずまき」 厳選の(?)4課題が遊べる overfitさせるべく正則化なし ReLUで妥協したので
 区分線形的な   分離離境界を⽣生成 合成特徴量量   オールoff 学習率率率1/3,  反復復4倍 学習曲線にプラトーが出て
 諦め時がよくわからん NNの場合、明⽰示的に与えたほうが学習(のTuning?)が圧倒的に楽
  18. 18. /3618 超⾼高次元の困難:  “次元の呪い”の諸相 ⼤大きな変数プール(n変数)からBest  Subset回帰(m変数)を探すと「本当は全く相関 がないにも関わらず」だいたい常に良良い回帰モデルが⾒見見つかってしまう!😫 が指数的オーダで増加するため可能なモデル数 「偶然に」誤差の⼩小さいモデルが⾒見見つかってしまうリスクもすぐに増加する QSAR業界では⾮非常に古くから指摘されてきたアーチファクト  (Topliss  1972,  1979) J.  Fan,  Features  of  Big  Data  and  sparsest  solution  in  high  confidence  set,  2014   Fan,  2014の例例 相関係数の最⼤大値の分布 5変数の重相関係数の最⼤大値の分布 (真に全く無相関) (=  5変数のBest  Subset回帰の決定係数) ①  Chance  Correlation  /  Spurious  Correlation  偽相関
  19. 19. /36 Beyer+  1999の例例:   19 超⾼高次元の困難:  “次元の呪い”の諸相 • K.  Beyer+,  When  Is  “Nearest  Neighbor”  Meaningful?  ICDTʼ’99   • V.  Pestov,  On  the  geometry  of  similarity  search:  dimensionality  curse  and   concentration  of  measure,  Information  Processing  Letters,  1999. 超⾼高次元空間ではサンプル点間の距離離がすべてほとんど同じになってしまう 距離離尺度度で情報フィルタリングをする場合、⾼高次元になるとほぼ全検索索に近くなる   ことがデータベースや情報検索索業界で指摘されてきた。 確率率率分布Pと距離離dを持つ超⾼高次元空間では良良く”測度度の集中”(ある距離離内にほとんど の測度度が集中する現象)という現象が起こることが知られており、上記もこれに起因 n+1個のd次元点 ②  Concentration  of  Measures  Phenomena  測度度の集中現象
  20. 20. /3620 正則化と変数選択:  Best  Subset回帰と縮⼩小推定 • 伝統的な変数選択法  (変数増加/減少/増減法/RELIEFF/t検定  etc) • Best  Subset回帰  (L0正則化) • LASSO  (Tibshirani  1996)  (L1正則化,  Basis  Pursuit  Denoising) leaps(Furnival  &  Wilson  1974)  or  全列列挙(Morgan  &  Tatar  1972) →  不不安定(データ点が少し変わると最適解が変化)  +  計算時間⼤大 LARS  (Efron+  2003)  or  座標降降下  (Friedman+  2007) →  変数間相関がない場合はLASSO=Best  Subset(=t検定変数選択) →  変数間相関がある場合は⼀一般にはLASSO≠Best  Subset  (biased) • glmnet  (Friedman+  2008) L1+L2(Elastic-‐‑‒Net)罰則つきで⼀一般化線形モデルを座標降降下で学習
 注:  正確には学習というよりは正則化パス追跡のための⼿手法 →  p>n設定のときLASSOでは⾼高々n変数までしか選べない。ロスを
 強凸化するので同点解が⽣生じない  →  最適化問題の構造が良良くなる。
  21. 21. /3621 拡張LASSO型オラクル推定量量とSIS • オラクル推定量量  (Fan  &  Li,  2001) • Adaptive  LASSO(Zou  2006)  ←2段階LASSO   • SCAD(Fan  &  Li  2001)  ←最も良良く使われる推定量量(実現に難あり)   • MC+(Zhang  2010)  ←SCADの良良い性質を持ち計算の性質が良良い • 条件1:  Best  Subsetへの          ⼀一致性 • 条件2:  漸近正規性 スパースな真の回帰モデルが 存在するとき、妥当なサンプ ル数で当てられる性能を規定 • 超⾼高次元の場合、理理論論的な前提が満たされない…  
 →  対処法:  SISで適度度なサイズにpre-‐‑‒select後、SCADなどで詳細選択 • Sure  Independence  Screening  (SIS)  (Fan  &  Lv  2008) p変数(平均0,分散1に基準化)、nサンプル 応答 に対して、 の絶対値順に要素を整列列 は漸近的な意味ですべての重要変数を含む 番⽬目に⼤大きい相関の絶対値
  22. 22. /3622 安定性の対処:  Randomized  Sparse  Models • Stability  Selection  (Meinshausen  &  Buhlmann  2010) • Randomized  LASSO  (Meinshausen  &  Buhlmann  2010) 参考)  Bootstrapをm回やって全部出た変数のみ使うBolasso  (Bach  2008)も  個のサンプルから                を⾮非復復元抽出し変数選択を繰り返す →  各変数が選択変数集合に選ばれる”確率率率”を計算 等確率率率乱数 パラメタ Regularization  Path      ❶  LASSO   “Stability”  Path  (選出確率率率プロット)      ❷  LASSO      ❸  Randomized  LASSO ❶ ❷ ❸
  23. 23. /3623 ⽊木型回帰・再帰分割:  交互作⽤用取込みの代替選択肢 いわゆる決定⽊木とか回帰⽊木とか • CART  (Breiman+  1984),  AID  (Morgan  &  Sonquist  1963),  CHAID  (Kass  1980)   • CLS  (Hunt  1966),  ID3  (Quinlan  1986),  C4.5/C5.0  (Quinlan  1993)   • VFDT/Hoeffding  Trees  (Domingos  &  Hulten  2000) Hyafil, Laurent; Rivest, RL (1976). "Constructing Optimal Binary Decision Trees is NP-complete". Information Processing Letters. 5 (1): 15–17. doi:10.1016/0020-0190(76)90095-8. Known  Facts • “Automatic  Interaction  Detector(AID)”  ⾃自動交互作⽤用検出に起源   • CART等はBayes-‐‑‒risk  consistent  (Gordon  &  Olshen  1978,  1980)   • 最適な2分決定⽊木の構築はNP困難(Hyafil  &  Rivest  1976)なのでgreedy構築+事後pruning   • 学習が⾼高速、変数の単調変換に対して不不変、離離散・連続を同時に扱える、⽋欠損値・異異常値OK 積和標準形(DNF)をモデル化:  
 交互作⽤用項のみからなる加法形 回帰⽊木 対応する再帰分割
  24. 24. /3624 交互作⽤用から合成特徴量量へ 回帰森/決定DAG:  RF,  GBM/MART/AnyBoost,  XGBoost,  RGF,  DJ 紹介すること 縮約合成量量:  主成分回帰,  PLS回帰,  教師付きPCA,  t-‐‑‒SNE,  Embedding ランダマイズド合成量量:  RP/ELM/RC,  ExtraTrees,  VR-‐‑‒Trees メタ特徴量量:  Stacked  Generalization  (aka  Stacking/Blending) 変数変換探索索:  ACE(Alternative  Conditional  Expectations) 今回扱わないが関係が深いトピック カーネル法:  ⾮非線形⾼高次元写像で間接的に交互作⽤用効果を取り込む ⼀一般化加法モデル:  スプライン回帰やMARSなど ニューラルネット:  写像の計算グラフ(aka  Kantorovichグラフ)分解 ベイズ予測分布:  積分型アンサンブル学習
  25. 25. /3625 その他:教師つきPCA(Bair+  2006),  Sparse  PCA(Zou+  2006),  Sparse   PLS(Lê  Cao+  2008;  Chun  &  Keleş  2010),  ICA(Comon  1994),… 線形合成量量・次元削減:  PLS回帰,  教師付きPCA,  … ※いずれもスケール不不変でないので注意    (通常各変量量は平均0,分散1に基準化) 様々な低次元合成量量を「特徴量量」としてモデルに加える 線形合成量量 主成分回帰  …  教師なしの直交化(第⼀一軸:  データ分散最⼤大) PLS回帰  …  教師ありの直交化(第⼀一軸:  応答との相関最⼤大) 次元削減量量 Manifold  Learning:  ISOMAP(Tenenbaum+  2000),  LLE(Roweis  &   Saul  2000),  t-‐‑‒SNE(van  der  Maaten  &  Hinton  2008),  … Neural  Networks:  Embedding  (2vec),  AutoEncoders,  …
  26. 26. /3626 ACE  (Alternative  Conditional  Expectations),  Breiman  &  Friedman  1985 変数変換探索索:  ACE ⽬目的変数 説明変数
  27. 27. /3627 アンサンブル⽊木型回帰 ❶  Random  Forest  (Breiman  2001) ❷  勾配ブースティング(関数勾配降降下) • XGBoost  (Chen  &  Guestrin  KDDʼ’16)  葉葉数+L2での正則化および⾼高速化 • GBM/MART/GBDT/AnyBoost  (Friedman  1999;  Mason+  NIPSʼ’99) ❸  Regularized  Greedy  Forests,  RGF  (Johnson  &  Zhang  2014) • Importance  Sample  Learning  Ensemble,  ISLE  (Friedman  &  Popescu  2003)
 部分標本(1/2サイズ以下)に対して⽊木を多数⽣生成  →  LASSOで加法⽊木に ❹  Decision  Jungles  (Shotton+  NIPSʼ’13)  →  多数決定⽊木を決定DAGに 加法⽊木  (回帰⽊木の線形結合) これを回帰⽊木で最⼩小⼆二乗近似 Bootstrap  +  乱択部分変数スプリット 各反復復:     葉葉split  or  新⽊木⽣生成 回帰森を⽊木構造正則化つきGreedy構成  +  “Fully  Corrective”
  28. 28. /3628 Feature  ImportanceとPartial  Dependence • 「解釈性」の問題:  それって解釈性なんですか? 「CARTはあまり予測精度度は⾼高くないけど”解釈性”がある」
 →  単に予測精度度の⾼高い全く別の説明が他にもあり得ることを⽰示唆? 特に⾼高次元現象により、⽊木やBest  Subsetなどの離離散表現は
 ほぼ同じ精度度でまったく違う表現が多数存在する場合が多い • ⽊木型アンサンブルの解釈性の担保   • Feature  Importance   • Partial  Dependence  Plot  (PDP)   • 交互作⽤用の共起も頻度度解析できる? ⽊木型アンサンブルはとても良良い!!  😆  (個⼈人的な趣味趣向含む…)
 →  明らかに「斜め」の表現に不不向きなのでPCAなど回転系特徴を ⼊入れておくとか、線形モデルとBlendingする(後述)とか対応は必要 “ESLII”   (2009)
  29. 29. /3629 ⾮非線形ランダム特徴量量 交互作⽤用を取込めてバリエーションがあればOKなら、もしかして
 ランダムでも良良いのでは?という極論論  (実際に結構良良い) ❷  Randomized  Trees : : : FC FC : : FC FC Extreme  Learning  Machine,  ELM
 (Huang  2006) Reservoir  Computing,  RC
 (e.g.  Schrauwen+  2007) ⼊入⼒力力 出⼒力力 時系列列   ⼊入⼒力力 出⼒力力 ランダム初期化(学習しない)ランダム初期化(学習しない) • Extremely  Randomized  Trees  (Geurts+  2006) • VR-‐‑‒Trees  (Liu  2008) ❶  Random  Projections 完全ランダム分割 ランダム分割  or  CART分割を各頂点で乱択 ランダム結合
  30. 30. /3630 Netflix  Prizeなど競技コンペ技術Stacking/Blendingとして広まった メタ特徴量量:  CV予測による合成特徴量量 訓練サンプル1 訓練サンプル2 訓練サンプル3 訓練サンプル4 訓練サンプル5 訓練サンプル6 訓練サンプル7 訓練サンプル8 訓練サンプル9 訓練サンプル10 任意の予測器 ただしこのサンプルは   予測器の学習に使⽤用しない   (Out-‐‑‒of-‐‑‒Sample  Estimate) この予測値⾃自体を追加特徴量量に
 (メタ特徴量量) 学習 ⼊入⼒力力 CV予測 Stacked  Generalization(Wolpert  1992;  Breiman  1996)
  31. 31. /3631 合成特徴量量   の⽣生成 線形判別  (最終層Linear) 「線形合成+整流流をstack」で写像分解 表現学習  =  計算グラフ分解による合成特徴量量学習 計算グラフ(aka  Kantorovichグラフ) 同じ⼊入⼒力力を使いまわす   のでアンサンブル学習   の効果も
  32. 32. /3632 NIPS  2003  Challenge  (Guyon+  NIPSʼ’04) PCA  or  単変量量特徴選択  +  ノンパラメトリックベイズNN(MCMCで学習)
 ARD  prior  or  Dirichlet  Difussion  Tree  priorのもとでの
 Bayesian  Neural  Networks  (Neal  &  Zhang  2006)  隠れ層2層(25→8  units) NIPS  2003  Feature  Selection  Challenge この%で⼈人⼯工ノイズが加えられている • 主催のGuyonが講義で上記5データに対してベースライン性能を越せという演習 課題を作ったら、学⽣生たちの予測が優勝性能を上回った!  (Guyon+  2007)   • ESLII(Hastie+  2009)で⽊木やNNのブースティング,RFと⽐比較 最終提出した16  チーム中の優勝者の最終モデル  (他と⽐比べ明らかに良良かった) (他のentryの多くはKernel  methods) ところが上記は優位とは⾔言えないかもという後⽇日談…
  33. 33. /3633 KDD  Cup  2015 https://speakerdeck.com/smly/techniques-tricks-for-data-mining-competitions 典型的Churn  Predictionタスク:  MOOC(XuetangX)のdropout確率率率予測  (賞⾦金金$20,000) Techniques  (Tricks)  for  Data  Mining  Competitions  ⼩小嵜  耕平(@smly) 参加821チーム中の優勝者の最終モデル構成(+ちょっとleakyな特徴量量が効いた様⼦子?) • 最終層Linear  Stacker   • 3段Stackingだが最終
 Stackerには1層,2層の
 メタ特徴も⼊入れる   • GBMやNN  +  LR  のStack重要   • バリエーションが⼤大事(たぶん)   • 個⼈人的にはKRRではなく ET(Extra  Trees)が2段⽬目でも 使われたのが興味深い…
  34. 34. /3634 ①  AD(Applicability  Domain) 伝統的にはQSARは⾻骨格が同⼀一で置換基の異異なる⼀一連の化合物に対して⾏行行 われてきた  →  学習モデルはこのタスク以外ではうまくいく根拠なし AD  =  予測したいデータが与えられた学習済みモデルで”外挿”になっ てないか判断する⼿手法  (棄却つき教師つき学習  or  スイッチング回帰) モデル特徴集合の妥当性評価 C.  Rücker+,  J.  Chem.  Inf.  Model.,  2007,  47  (6),  pp  2345–2357 ②  Y-‐‑‒Scrambling  Test  /  Y-‐‑‒Randomization 機械学習による外挿は信頼性が⼩小さいので、その際はモデルが適⽤用外と判断! yをランダムに並び替え 並び替え後のデータは「科学的に全く無意味なデータ」   →  全く同じ⼿手順で予測を構築して予測精度度が有意に下がることを確認
        (超⾼高次元⼩小サンプルに線形モデルを当てはめるとかの場合特に注意?)
  35. 35. /3635 本⽇日の話:  まとめのメッセージ • 線形モデルは性質がとても良良いが条件付きの関係を表現できないため underfitしやすいので変数間交互作⽤用を何らかの形で組み込む⼯工夫が必要 • 選択肢1:積項交互作⽤用は⽊木型アンサンブル回帰で取り込む
           (RF,  XGBoost,  RGF,  ET,  DJ,  …)  線形とのBlendingが相補的?   • 選択肢2:多項式回帰系(FMなど)で陽に低次交互作⽤用を組み込む   • 選択肢3:とにかく⾮非線形な合成量量をdiverseに⽣生成  (RPやNN)   • 選択肢4:上記すべてやってStacking • ⾼高次元では偽相関の問題等が起こる • 超⾼高次元になる場合、単純な単変量量特徴選択(SIS,  t検定選択など)や 次元縮約(t-‐‑‒SNE,  PLS,  PCA,  etc)はかなり有効 • Cross  Validation以外にADやY-‐‑‒Scramblingも考慮し良良結果に慎重に • ⾼高次元では推定が不不安定になりやすい  (⽊木やBest  Subsetなど離離散系は特に) アンサンブル(Boosting,  Bagging,  Stacking)やランダマイズ(Stability   Selection,  Bagging/Feature  Bagging,  ELM,  ExtraTrees,  etc)が⼤大切切
  36. 36. /3636 謝辞 • 北北海道⼤大学  情報科学研究科 • 新学術領領域  (総括:  岡⽥田真⼈人  教授)
 スパースモデリングの深化と⾼高次元データ駆動科学の創成 • 北北海道⼤大学  触媒科学研究所 • 東京⼤大学  新領領域創成科学研究科 湊  真⼀一  教授、⽯石畠正和  特任助教、⼤大規模知識識研究室メンバー 清⽔水研⼀一  教授、⾼高草⽊木  達  准教授 津⽥田宏治  教授 • JSTさきがけ

×