Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

多数のグラフからの統計的機械学習 (2014.7.24 人工知能学会 第94回人工知能基本問題研究会 招待講演)

983 views

Published on

生命科学での探索的な用途を念頭に、分子グラフなど個々の対象がグラフ構造で表現されたデータが多数蓄積されている。本講演では、こうしたデータに対して、各々のグラフgに何か関連値yが付与されている場合に、(g,y)の多数事例に基づく対応g→yの教師付き学習を行う手法を概説する。このような問題の例としては、ある化学構造の化合物が突然変異誘発性を持つかを予測する問題などがあり、グラフカーネル法をはじめとしてグラフ集合上の統計的機械学習により良い結果が得られている。また、講演者が近年取り組んできた全ての可能な部分グラフ特徴から疎学習に基づき特徴集合と線形モデルの同時学習を行う厳密法と関連手法も併せて紹介する。

Published in: Engineering
  • Be the first to comment

多数のグラフからの統計的機械学習 (2014.7.24 人工知能学会 第94回人工知能基本問題研究会 招待講演)

  1. 1. /401 多数のグラフからの統計的機械学習 北海道⼤学・創成研究機構 takigawa@cris.hokudai.ac.jp 瀧川 ⼀学 ⼈⼯知能学会 第94回⼈⼯知能基本問題研究会
  2. 2. /402 本題:多数のグラフからの統計的機械学習 関⼼:多数の離散的な対象に統計を効かせて連続的法則性をモデル化したい 有限事例       から、 となるようなモデル  を構成したい グラフ 値 0.1 0.7 1.2 0.2 1.3 0.9 g1 g2 g3 g4 g5 y1 y2 y3 y4 y5 ... yn gn
  3. 3. /403 ① この問題の特徴付けと背景 ② この問題の代表的解法の概説 ③ 最近の研究と今後の⾒通し 本⽇の講演の構成 具体例、基本設定、探究したい点の確認 (1) データ駆動型フィンガープリント (2) グラフカーネル法 (3) 疎学習 私⾃⾝の(3)の研究から得られた知⾒・⾒通し
  4. 4. /403 ① この問題の特徴付けと背景 ② この問題の代表的解法の概説 ③ 最近の研究と今後の⾒通し 本⽇の講演の構成 具体例、基本設定、探究したい点の確認 (1) データ駆動型フィンガープリント (2) グラフカーネル法 (3) 疎学習 私⾃⾝の(3)の研究から得られた知⾒・⾒通し
  5. 5. /404 0.1 0.7 1.2 0.2 1.3 0.9 g1 g2 g3 g4 g5 y1 y2 y3 y4 y5 g6 y6 y g 本題:多数のグラフからの統計的機械学習 関⼼:多数の離散的な対象に統計を効かせて連続的法則性をモデル化したい グラフ 値 有限事例       から、 となるようなモデル  を構成したい
  6. 6. /405 0.1 0.7 1.2 0.2 1.3 0.9 g1 g2 g3 g4 g5 y1 y2 y3 y4 y5 g6 y6 y g 今⽇の話に通底する本質は「特徴設計」 Q.与えられた問題を解くための適切な特徴をどう設計すれば良いのか? → 特徴⼯学、特徴選択、表現学習の問題 (究極的には⼈⼯知能で昔からあるフレーム問題+記号着地の問題?) 顔 変顔度例)
  7. 7. /406 0.1 0.7 1.2 0.2 1.3 0.9 ⽣物活性 化学構造 実問題の典型例 「化合物が突然変異誘発性(毒性)を持つかどうか?」 帰納論理プログラミングで解析され伝統的なHansh-藤⽥のQSAR法と⽐較された。 参考:「帰納論理プログラミング(古川康⼀ら著,共⽴出版,2001)」の10.3節 構造物性相関(SPR) 例) 構造活性相関(SAR):構造からその活性をどの程度予測できるのか?
  8. 8. /407 例) 構造活性相関(SAR):構造からその活性をどの程度予測できるのか? 備考:⾃分の乗る⾶⾏機を機械学習で制御して欲しくない件 実問題は特徴抽出が肝⼼! (Hansh-藤⽥のQSARは⼿法は単なる重回帰)
 幾何的構造、分⼦量、疎⽔性(LogP)、HOMO/LUMO、電気陰性度、置換基定数、…
  9. 9. /407 例) 構造活性相関(SAR):構造からその活性をどの程度予測できるのか? 備考:⾃分の乗る⾶⾏機を機械学習で制御して欲しくない件 実問題は特徴抽出が肝⼼! (Hansh-藤⽥のQSARは⼿法は単なる重回帰)
 幾何的構造、分⼦量、疎⽔性(LogP)、HOMO/LUMO、電気陰性度、置換基定数、… 化学反応については⻑い歴史と確⽴した第⼀原理(理論)がある:
 理論化学/量⼦化学(シュレディンガー⽅程式に基づく量⼦化学計算) 2013年のノーベル化学賞は理論化学計算モデルに対して与えられた!
 (1998年の計算化学モデルの受賞以来、理論化学では15年ぶり)
 「マルチスケールモデル(多階層モデル)による複雑分⼦系の計算化学」
  10. 10. /408 0.1 0.7 1.2 0.2 1.3 0.9 ⽣物活性 化学構造 例) 構造活性相関(SAR):構造からその活性をどの程度予測できるのか? 多数のグラフに対する統計的機械学習 「化合物が突然変異誘発性/毒性を持つかどうか?」 基本的には背景原理が複雑すぎてよく分からない/規模的に理論計算できない現象が対象! 薬剤候補の毒性、安全性、吸収・分布・代謝・排泄(ADME)など…
  11. 11. /409 a h h h h d h h a h r r r r r r r rr r r r C O N S CC C C C C C C C C C C C C C C C C O2x C1x C1x C1x C1x N1x C1b C1b S2a C1c C8y C8y C8x C8x C8x C8x C8x C8xC8x C8x C8x C8x RA L L Ar Ar A Structure diagram Skeletal topology Atom/bond labeled graph KEGG atom labeled graph (KCF) Pharmacophore type labeled graph (ChemAxon Screen) Reduced graph 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 2 2 2 2 2 1 1 背景:グラフ表現を持つデータの統計解析の需要↑ グラフ(graph)= 何種類かの点と線の集合で表される数学的対象/データ構造 化合物の分⼦表現とグラフは因縁深い関係:
 「graph」というtermが最初に使われたのは分⼦グラフ研究
 (参考:「グラフ理論への道」Biggs, Lloyd, Wilson, 翻訳:⼀松 信ら, 1986) ※頂点と辺のラベルは離散的と仮定
  12. 12. PubChemのunique構造数 > 5200万 (2014年7⽉22⽇現在)
  13. 13. 参考)⽣命科学データ以外の例 画像中のオブジェクト認識にグラフ表現を⽤いた例 (S. Nowozin, Learning with Structured Data: Applications to Computer Vision, Phd Thesis, 2009) …ただし本当に効果的かはまだ未知数?
  14. 14. /4012 ①部のまとめ • ⼀般にグラフが多数ある状況ではどのような特徴が良いのかよくわからない! (これ以降の話はよく分からなくても使える汎⽤技法があるか?という話) • 分⼦や反応に限れば専⾨的にかなり研究されている:巨⼤な理論化学の知⾒もあ るので第⼀原理計算ができるものを対象にすると意味がなさそう。
 (理論化学/量⼦化学計算はノーベル賞が出るほどに確⽴しています) • 統計的技術のフォーカス:毒性など、原理が複雑すぎてよく分からない⽣物活性 を扱う場合、や、データ量が⼤規模で量⼦化学計算が難しい場合、に適合しそう
 (切り分けではなく融合させる⽅向も最近は各⽅⾯で進⾏中?) 特徴設計/学習の重要性:「どのような特徴を使うか」が最も⼤事
  15. 15. /4013 ① この問題の特徴付けと背景 ② この問題の代表的解法の概説 ③ 最近の研究と今後の⾒通し 本⽇の講演の構成 具体例、基本設定、探究したい点の確認 (1) データ駆動型フィンガープリント (2) グラフカーネル法 (3) 疎学習 私⾃⾝の(3)の研究から得られた知⾒・⾒通し
  16. 16. /4014 0.1 0.7 0.9 ⋮ ⋮ 1.2 y g 全ての可能な部分構造特徴による空間
  17. 17. /4014 0.1 0.7 0.9 ⋮ ⋮ 1.2 … 0 0 1 1 1 0 … 1 0 0 0 0 1 … 1 1 0 1 1 0 … ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ 1 0 1 1 1 0 … y g x1 x2 x3 x4 x5 x6 g1 g2 g3 gn 全ての可能な部分構造特徴による空間 ※あくまで仮想的なもので陽に構成するのは⼩さいnですら⾮現実的
  18. 18. /4014 0.1 0.7 0.9 ⋮ ⋮ 1.2 … 0 0 1 1 1 0 … 1 0 0 0 0 1 … 1 1 0 1 1 0 … ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ 1 0 1 1 1 0 … y g x1 x2 x3 x4 x5 x6 g1 g2 g3 gn 全ての可能な部分構造特徴による空間 ※あくまで仮想的なもので陽に構成するのは⼩さいnですら⾮現実的 部分グラフ指⽰⼦ 出現数や確率などの重みを掛ける ことも多いが、基本的には
 0 or 1 (出現するかしないか)
 のみが重要 bag-of- features
  19. 19. /4014 0.1 0.7 0.9 ⋮ ⋮ 1.2 … 0 0 1 1 1 0 … 1 0 0 0 0 1 … 1 1 0 1 1 0 … ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ 1 0 1 1 1 0 … y g x1 x2 x3 x4 x5 x6 g1 g2 g3 gn 全ての可能な部分構造特徴による空間 ※あくまで仮想的なもので陽に構成するのは⼩さいnですら⾮現実的 本⽇、概説する⽅法は基本的に
 この空間の部分空間で説明できる 部分グラフ指⽰⼦ 出現数や確率などの重みを掛ける ことも多いが、基本的には
 0 or 1 (出現するかしないか)
 のみが重要 bag-of- features
  20. 20. /4015 Data-Driven Fingerprints • Extended Connectivity Fingerprint
 (Rogers and Hahn, 2010) • Frequent and/or Bounded-Size Subgraphs
 (Wale et al, 2008) 関連する⼿法:主な3つの枠組の概説 Sparse Learning • Graph AdaBoost
 (Kudo et al, 2004) • Graph LPBoost (gBoost)
 (Saigo et al, 2009) • Graph LARS/LASSO
 (Tsuda et al, 2007)
 Discriminative Subgraph Mining 
 (※ ) • LEAP
 (Yan et al, 2008) • GraphSig
 (Ranu et al, 2009) • CORK
 (Thoma et al, 2009) Graph Kernels • Marginalized Kernels
 (Kashima et al, 2003, 2004; Máhe et al, 2005) • Walk Kernels
 (Gärtner et al, 2003; Borgwardt et al, 2005;
 Vishwanathan et al, 2010) • Weighted Decomposition Kernels
 (Menchetti et al, 2005) • Subtree Kernels
 (Mahé and Vert, 2009) • Weisfeiler-Lehman Kernel
 (Shervashidze et al, 2011) ❶ ❷ ❸ ❹
  21. 21. /4016 0.1 0.7 0.9 ⋮ ⋮ 1.2 … 0 0 1 1 1 0 … 1 0 0 0 0 1 … 1 1 0 1 1 0 … ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ 1 0 1 1 1 0 … y g x1 x2 x3 x4 x5 x6 g1 g2 g3 gn ❶ Data-Driven Fingerprints 1. 事前知識と対象問題の特性から 決めうちで有限特徴集合を設計 2. 特徴を学習データから⽣成 • 最も伝統的 (もともと検索⽤?) • PubChem fingerprintやMaccs Key など確⽴したものや、⾊々な特許も • 性能のデータ・問題依存性が⾼い → データ駆動のfingerprint 特徴の有無で表現される0-1特徴 ベクトルをfingerprintと呼ぶ ただし、全ての可能な部分構造特徴 から⾒れば部分セット
  22. 22. /4017 頻出部分グラフとサイズ制約出現部分グラフ ❶ Data-Driven Fingerprints 特徴を学習データから⽣成する⽅法の検証 (Wale et al, KAIS, 2008) 1. fp: Hashed Fingerprint (後述) 2. ECFP (後述) 3. MK: 標準的な固定特徴 166bit 4. FS: 頻出部分グラフ 5. GF: サイズ制約出現部分グラフ • GFとECFPが有意に良さそう • FSは案外ダメ(!) ↑ROC50のAUC値 (最初50 false positivesまでのAUC)
  23. 23. /4018 Hashed Fingerprint (Wale et alではChemAxonのもの) ❶ Data-Driven Fingerprints DaylightやChemAxonを含む商⽤の⼈気ケモインフォパッケージで 標準的に⽤いられる (部分構造のサイズや種類はある程度限定) https://docs.chemaxon.com/display/jchembase/User's+Guide
  24. 24. /4019 ❶ Data-Driven Fingerprints Extended Connectivity Fingerprints http://chembioinfo.com/2011/10/30/revisiting- molecular-hashed-fingerprints/ 1. 左図のように各頂点ごとに0〜3近 傍の部分グラフ特徴を列挙 2. 部分グラフ特徴を何らかの⽂字列 表現(SMARTS/SMILES等)にして 適当なハッシュ関数でHashed Fingerprintを⽣成 概要(いくつかのvariationあり) ※実際はMorganのアルゴリズム(Morgan: J. Chem. Doc. 5, 107-113, 1965)という頂点 番号付け⼿順を使って効率的に計算できる
  25. 25. /4020 ❷ Graph Kernels 0.1 0.7 0.9 ⋮ ⋮ 1.2 … 0 0 1 1 1 0 … 1 0 0 0 0 1 … 1 1 0 1 1 0 … ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ 1 0 1 1 1 0 … y g x1 x2 x3 x4 x5 x6 g1 g2 g3 gn 種類を制約することでimplicitに 内積値が効率的に計算できるも のを探究する • Walkのみ • ⻑さl以下のPathのみ • Treeのみ
 : すべてのSubgraphの場合は内積 計算の計算コストが⼤きすぎ(NP- hard)で現実的には実装不可能 データ⾏列は陽には構成しない!
  26. 26. /40 0 1 0 0 1 0 0 1 0 1 1 2 0 0 0 0 0 0 1 2 21 ❷ Graph Kernels a a a b a c b b b c a b c a c b a a b b b b c g1 g2 g3 x1 x2 x3 x4 x5 例) スペクトルカーネル (⽂字列と同様) モデルの学習に ⽤いる特徴集合 2 1 2 2 0 5 2 2 0 5 g1 g2 g3 g1 g2 g3 グラム⾏列 これだけ計算 できればOK
  27. 27. /40 (ゆえに ) 22 ❷ Graph Kernels • Marginalized Kernels
 (Kashima et al, 2003, 2004; Máhe et al, 2005) • Walk Kernels
 (Gärtner et al, 2003; Borgwardt et al, 2005;
 Vishwanathan et al, 2010) • Weighted Decomposition Kernels
 (Menchetti et al, 2005) • Subtree Kernels
 (Mahé and Vert, 2009) • Weisfeiler-Lehman Kernel
 (Shervashidze et al, 2011) 特徴空間Vでの内積値k(g,gʼ) が効率的に計算可能かが⼤事 ユークリッド的な空間 V (再⽣核Hilbert空間) 再⽣性 ⼀般のカーネル法の原理 陽に特徴空間Vを作る事でカーネル法が適⽤ できること(kの正定値性)を⽰す事が多い?
  28. 28. /4023 ❷ Graph Kernels 例) Weisfeiler-Lehman Kernel ECFPと似て近傍を特徴として取っていくが、再帰的リラベルを⽤いる 2つのグラフが⾮同型なことを効率的にcheckするWeisfeiler-Lehman
 アルゴリズム(1968)という発⾒的⽅法の⽣成ラベルでカーネル設計を⾏う http://www.cc.gatech.edu/~lsong/teaching/8803ML/lecture22.pdf リラベル リラベル (Shervashidze et al, JMLR 2011) ①x5 ①x5 同型? ②x3 ③x2 ④x1 ②x3 ③x2 ④x1 ⑥x1 ⑦x2 ⑧x2 ⑩x1 ⑤x2 ⑥x1 ⑨x2 ⑩x1 ⾮同型!同型? 異なる!
  29. 29. /4024 ❸ Sparse Learning: Boostingによる特徴選択 0.1 0.7 0.9 ⋮ ⋮ 1.2 … 0 0 1 1 1 0 … 1 0 0 0 0 1 … 1 1 0 1 1 0 … ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ 1 0 1 1 1 0 … y g x1 x2 x3 x4 x5 x6 g1 g2 g3 gn 候補は「すべての可能な部分構造 特徴」を考え、必要な特徴を疎学 習によって同時獲得する 基本アイデア: 各部分グラフ指⽰⼦(とその反転) を弱学習器とみて、boostingによ り逐次選択していく
  30. 30. /4025 ❸ Sparse Learning: Boostingによる特徴選択 例) Adaboostに基づく特徴とモデルの同時学習 (Kudo et al, NIPS 2004) 各iterationでは各々の「部分グラフ指⽰⼦」のすべての候補の中から、 最も”重み付き誤差”を最⼩にするものをモデルに加える(*) Tラウンドまでで最⼤T個の部分グラフ指⽰⼦の線形モデルが学習される ★重要ポイント
 上の*の探索は頻出部分グラフ列挙(gSpan等)の探索構造とBranch and Boundを使って効率的に解く事ができる。
 → 後述のLPboostでも同じ (Adaboostが使われたが原理上はArc-GVやsoft-margin boostingも可)
  31. 31. /4026 ❸ Sparse Learning: Boostingによる特徴選択 例) LPboostに基づく特徴とモデルの同時学習(gBoost) (Saigo et al, Mach Learn, 2009) 基本はAdaboostをLPboostにする話だが含意するものがもっと広い。 で損失関数LがSVMと同じhingeの場合 (1-norm SVM)と等価 SVMは正則化項が 上記hinge loss+L1最⼩化は線形計画問題 ※Totally corrective boosting 列⽣成法というDantzig-Wolfe分解の考え⽅を応⽤するLPの計算技法を使う = これをboostingとして⾒たのがLPboost
 (最適化の観点で⾒るとある種のCoordinate Descent?) Adaboostは?な部分が… LPboost (Demiriz et al,2002)
  32. 32. /4027 ②部のまとめ • おおまかに3つのアプローチのアイデアの紹介:
 「どのような特徴を使うか」と「計算効率」が異なる 1.Data-Driven Fingerprint
 Hashed Fingerprint, ECFP, 頻出部分グラフ, サイズ制約出現部分グラフ 2.Graph Kernels
 スペクトルカーネル, Weisfeiler-Lehmannカーネル 3.Boostingによる特徴の同時学習
 Adaboost式とLPboost式 3についての疑問 ★他の⼿法と異なりすべての可能な特徴から必要な特徴を学習できる 👍 このAdaboostやLPboostによる特徴選択のアイデアや技法はどこまで
 広いクラスの問題に適⽤できるのだろう??(他のlossでもイケるの??)
  33. 33. /4028 ① この問題の特徴付けと背景 ② この問題の代表的解法の概説 ③ 最近の研究と今後の⾒通し 本⽇の講演の構成 具体例、基本設定、探究したい点の確認 (1) データ駆動型フィンガープリント (2) グラフカーネル法 (3) 疎学習 私⾃⾝の(3)の研究から得られた知⾒・⾒通し
  34. 34. /4029 ❸ Sparse Learning 得られている成果 1, 2 > 0 L = ( 1, 2, . . . ) g gµ( | , 0) := 0 + j=1 jI( )xj min , 0 n i=1 L yi, µ(gi | , 0) + 1 1 + 2 2 2 2 0 基本⽅針: Adaboostをやめて、LPboost(Coordinate Descent)的な捉え⽅で 陽な最適化を⼯夫し、何とかすべての部分グラフ特徴を考えても動くようする。 あまり検討してない事:罰則が無い or 陽に考えないことにすれば、
 Gradient Boosting等の⼀般化Boostingを⾏う⽅向も有り得るのかも?
  35. 35. /4030 g gµ( | , 0) := 0 + j=1 jI( )xj ❸ Sparse Learning: 設定の再考 0.1 0.7 0.9 ⋮ ⋮ 1.2 … 0 0 1 1 1 0 … 1 0 0 0 0 1 … 1 1 0 1 1 0 … ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ 1 0 1 1 1 0 … y g x1 x2 x3 x4 x5 x6 g1 g2 g3 gn AdaboostでもLPboostでも(多くの graph kernel法でも)最終的に得るの は上の形の線形モデル 指⽰⼦の0-1変数に対して、1次の
 Pseudo-boolean functionになる。 もし    の値を適当な閾値で切って ⼆値化する場合(分類などの場合)、
 Linear threshold functionになる。 特徴ベクトルはboolean cubeの端点に分布
  36. 36. /4031 鍵となる⽊型の探索空間とbounding技法 ★重要ポイント
 上の*の探索は頻出部分グラフ列挙(gSpan)の探索構造とBranch and Boundを使って効率的に解く事ができる。LPboostでも同じ。 0/1 0/1 0/1 0/1 0/1 0/1 0/1 0/1
  37. 37. /4031 鍵となる⽊型の探索空間とbounding技法 ★重要ポイント
 上の*の探索は頻出部分グラフ列挙(gSpan)の探索構造とBranch and Boundを使って効率的に解く事ができる。LPboostでも同じ。 0/1 0/1 0/1 0/1 0/1 0/1 0/1 0/1 ハッセ図 列挙⽊
  38. 38. /4032 x x zi 2 {0, 1}f(z1, z2, . . . , zn) 2 R x x 列挙⽊の各頂点  にはn次元Boolean vectorが付随 探索が深くなるに つれて
 1をとる添字集合
 が⼊れ⼦的に減る! 今のノードより深く探索した場合の 関数値の上界・下界は今1の箇所を 任意に0に変えて可能なmaxとmin 鍵となる⽊型の探索空間とbounding技法 この付随するn次元Boolean vectorを 引数とする実関数 を考える。 ※⼀般には全組合せの探索が必要
  39. 39. /4033 鍵となる⽊型の探索空間とbounding技法 f(u) f(v) f(u) for all v s.t. 1(v) 1(u) f(u) := i 1(u) max{fi(0), fi(1)} + i 0(u) fi(0) f(u) := i 1(u) min{fi(0), fi(1)} + i 0(u) fi(0) f : {0, 1}n ! R, f(u1, u2, . . . , un) = Pn i=1 fi(ui) v = n z }| { 001000110· · ·0 u = 011001110· · ·1 • Gain: n i=1 wiyi(2I(x gi) 1) • Weighted error count: n i=1 wi I(I(x gi) = yi) • Correlation with response: n i=1 yiI(x gi) Gainで定義された Morishita, 2001; Kudo et al, 2005 より⼀般的 系:Morishita-Kudo Bounds for Separable Functions が0-1変数 全組合せの探索が不要な場合 (典型例は全てこのケース)
  40. 40. /4034 従来のBoostingによる特徴学習の再解釈 1I(x1 g) 1I(x1 g) + 2I(x2 g) 1I(x1 g) + 2I(x2 g) + 3I(x3 g) Iteration 1: Iteration 2: Iteration 3: ... 特徴を⼀つづつ加えて線形モデルを作る x x 最も良い特徴  を探索する Main Trick: MK BoundsによるBranch & Bound
  の⼦孫が達成する最も良い特徴が現暫定候補より 悪ければ、 の⼦孫を探索する必要はない(pruning)。 の⼦孫(subtree) xi これが     を弱学習器とみたboosting 各iterationごとに x x 列挙⽊ ※ k-bestを⾜すのもアリ? (列⽣成法における
 multiple pricing)
  41. 41. /4035 Iterations: (t + 1) (t) + d(t), d(t) := T( (t)) (t) ★上記の最⼩化をblock coordinate descentで解くのがBCGD T(✓(t)) := arg min ⇠  hrf(✓(t)), ⇠ ✓(t)i + 1 2 h⇠ ✓(t), H(t)(⇠ ✓(t))i + R(⇠) 2nd-order approx of f(✓) at ✓(t) min f( ) + R( ), = ( 0, ) nonsmooth Coordinate blockはGauss-Southwell式に定めると収束保証ができる。 d(t)j = 0 for d(t)j C d(t) (Gauss-Southwell-r rule) step length selected by Armijo rule at each iteration 正定値⾏列 さらに広いクラスを解く: Tseng-Yunʼs BCGD BCGD: Block Coordinate Gradient Descent
  42. 42. /4036 得られている汎⽤アルゴリズムと知⾒ 1) パラメタをzero vectorで初期化 2) iterate:
 BCGDの各iteration後に⾮ゼロになる特徴を全て加えてパラメタ更新
 (iteration毎に複数の部分グラフ特徴が⾃然に加わる)
 → 更新後にゼロになる条件が「MK bounds+少し探索を⼯夫」
 により枝狩りに使える
 (=より深く探索してもゼロ成分がない条件) 3) BCGDの収束条件で終了 概要 知⾒ • より広いクラスを解く(boostingによらない)最適化の⼿だて が得られた。(elastic-net罰則付き⼀般線形モデル) • 各iterationでの収束レートと安定性が良くなる。 • ただし、現実装では1iterationにかかるコストが⼤きく boostingと⽐べ、かなり遅いので現在改良の試⾏錯誤中
  43. 43. /4037 要検討な問題と展望 • 部分グラフ指⽰⼦は包含関係のせいで、かなり冗⻑(完全共線形性)かつ⾼相関
 → かなり⼤きい同値類が存在=学習された特徴の解釈には注意すべし(+抑制変数)
 → LPboostや提案法のL1-罰則はこの設定下で意図通り機能しているの!? • 確率的に⽣成したデータを使って分析したところ、Boostingにせよ提案法にせよ、デー タに重要な部分特徴があっても、それより⼩さめの部分特徴の組合せで対処するよう 学習されてしまう。
 → 結局⼩さいデータのほうが汎⽤性が⾼い(test graphに出る可能性が⾼い)から?
 (もしかしてだけど)「サイズ制約出現部分グラフ」のfingerprintで⼗分!?(要検討) • 線形で良いの!? 部分グラフ指⽰⼦の冗⻑性・相関構造については現在も研究中 (L2罰則効果も) • その他の問題: ⾼速化、階層(ベイズ)化、オンライン学習化、などなど 任意のpseudo-boolean functionはuniqueな多項式展開を持つ → まず、⼆次交互作⽤付き線形モデル学習へ拡張 (尤度⽐で交互作⽤検定が出来る)
  44. 44. /4038 ① この問題の特徴付けと背景 ② この問題の代表的解法の概説 ③ 最近の研究と今後の⾒通し 本⽇のまとめ:多数のグラフからの統計的学習 「どのような特徴を使うか」と「計算効率」が最も⼤事 (1) データ駆動型フィンガープリント (2) グラフカーネル法 (3) 疎学習 広いクラスの問題で(3)は可能、ただし効率の良い解法など 実⽤化については、まだまだ解決すべき問題が多数残る 特徴クラスを制限 全ての可能な特徴から モデルと同時に学習

×