Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

データでみる機械学習と制御理論の類似点と相違点

4,394 views

Published on

本発表の目的は機械学習に興味がある制御理論研究者に有用な情報を提供することです.ただし,発表者は機械学習のど素人なので,データに基づいた制御分野との相対化を行うことで情報の抽出を試みます.

Published in: Science
  • Be the first to comment

データでみる機械学習と制御理論の類似点と相違点

  1. 1. データでみる機械学習と 制御理論の類似点と相違点 丸田 一郎 (京都大学)
  2. 2. 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 制御理論 機械学習 検索インタレストの動向 by Google Trends ← 類似点 相違点 →
  3. 3. 本発表の背景と方針 目標 • 今を時めく機械学習の分野に 興味がある制御研究者への情報提供 背景 • 経験値が足りない (機械学習についてはど素人) 方針 • 機械学習の流儀に倣う ⇒ データが大量にあればなんとかなる!? • 制御分野と相対化する
  4. 4. 本発表の構成 1. 周辺分野の可視化 2. キーワード出現頻度の分析 3. Word2vecによる重要キーワードの分析
  5. 5. 周辺分野の可視化 • データマイニング・人工知能・自然言語処理・コン ピュータビジョンなどの周辺分野と機械学習の境界が よくわからない • どこから手を付けていいかわからない 分野間の関係をグラフとして可視化 • ノード → 刊行物(学術誌/予稿集) ,エッジ → 引用数 • Citation Network Dataset [Ametminer, 2016/4] DBLPをもとにした引用情報付きデータベース 文献数 3,272,991件,引用数 8,466,859件 • 互いの引用数が多い刊行物が近くに配置されるよう 可視化&クラスタリング
  6. 6. ノード数 1590 ⇒ 全体をみるにはちょっと多すぎる https://maruta.github.io/visnet-dml/full/
  7. 7. Automatica ICML https://maruta.github.io/visnet-dml/ ノード数 1590 ⇒ Automatica or ICML に隣接する 145ノードに限定
  8. 8. コンピュータ ビジョン ロボット 信号処理 ニューラル ネット 制御 ファジー最適化 AI 言語 データマイニング このあたりが俗にいう 機械学習っぽい領域 学習理論 狭義の機械学習 狭義の機械学習分野は 隣接分野との結合が強く 凝縮したクラスタを為さない 制御分野は機械可読な データが少ない
  9. 9. 本発表の構成 1. 周辺分野の可視化 2. キーワード出現頻度の分析 3. Word2vecによるキーワードの分析
  10. 10. キーワード出現頻度の分析 機械学習/制御の特徴をキーワード出現頻度から考察 ⇒ 論文における単語/フレーズの出現頻度を計測 コーパス(大量の文章データ) • 機械学習分野 (10,256ファイル / 52,867,111単語) NIPS 1987~2016,ICML 2007~2016 など • 制御分野 (38,501ファイル / 180,044,623単語) CDC 1996~2016,ACC 1999~2016 など 2分野のコーパスでの出現頻度を計算 ⇒ 比較
  11. 11. 詳細版は予稿集,簡易版は https://maruta.github.io/dml-wordcloud/ 色・ウエイト:2分野の差 大きさ:2分野の和
  12. 12. 制御分野で頻出 共通 機械学習分野で頻出 特徴 Dynamics State Stability Continuous-time Discrete-time Model Performance Estimate Analysis Cost Stochastic Random variable Distribution Probability Log-likelihood 道具 LMI (SDP) SOS Optimization Least-squares Gradient descent Greedy 問題 Linear/Nonlinear Complexity High-dimensional 応用 Simulation results Numerical example Application Real world Toy example 𝑶𝑶 𝒏𝒏𝟑𝟑 以下ならOK 線形+α 制御は浮世離れが進んでいる (単純な非線形)高次 𝑶𝑶(𝒏𝒏)以下が好まれる
  13. 13. 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 制御理論 機械学習 ところで・・・・ ←この前後の違いが 気になる 第3次人工知能ブーム
  14. 14. 1990 1995 2000 2005 2010 2015 0 20 40 出現頻度の変遷deepを含む 論文の割合(%) Bayesianを含む 論文の割合(%) 第3次人工知能ブームに 関連するキーワード ピーク時期に基づいてキーワードを分類 制御理論 機械学習 1990 1995 2000 2005 2010 2015 0 20 40 相対的に割を食った キーワード 制御理論 機械学習
  15. 15. キーワード栄枯盛衰 in 機械学習 ピーク キーワード ~2008 Kernel, SVM ~2011 Bayesian, Manifold, Graphical ~2015 Sparsity, Convex, ADMM, Nuclear norm 増加中 Gradient, Bandit, Spectral Combinatorial, Regularization Tensor, Submodular 急上昇 LSTM (Long Short Term Memory) SGD(Stochastic Gradient Descent) リバイバル Neural Network, Q learning
  16. 16. 本発表の構成 1. 周辺分野の可視化 2. キーワード出現頻度の分析 3. Word2vecによるキーワードの分析
  17. 17. Word2vec [Mikolov, 2013]とは? コーパスをもとに,単語からベクトルへの写像 𝑣𝑣: 単語 ↦ 𝑅𝑅300 を作るツール. 単語間の関係性を反映したベクトルが得られる ⇒ 東京𝑣𝑣 パリ − 𝑣𝑣 フランス + 𝑣𝑣 日本 に最も近いベクトルに対応する単語は? 使用例
  18. 18. 制御/機械学習分野の論文をコーパスとする 専門用語の関係性を反映した写像が得られている controllability – input + output = observability Kalman Filter – linear +nonlinear = EKF ここでは “stability” に近い機械学習分野の単語を検索 制御分野における重要なキーワード 機械学習の分野における重要なキーワードが知りたい
  19. 19. 制御分野に頻出 機械学習分野に頻出 Passivity Robustness Controllability Well-posedness Feasibility Observability Solvability Positivity Safety Invertibility Diagnosability Validity Reachability Reliability Rigidity Identifiability Consistency Convexity Convergence rate Tractability Scalability Computational efficiency Submodularity Tightness Provable Theoretical guarantees Interpretability Better understanding モデル構造の 妥当性 計算量の小ささ 性能保証の良さ モデルの 解釈可能性 stability の word2vec 的類義語(抜粋)
  20. 20. まとめ 引用関係に基づく機械学習周辺分野のクラスタリング • データマイニング・言語処理のあたりが 制御から遠くておもしろそう キーワード出現頻度に基づく特徴づけ • 制御 ⇒ ダイナミクス,小データ & 低速高精度な最適化 • 機械学習 ⇒ 確率的, 大データ&高速低精度な最適化 Word2vecに基づく重要キーワードの分析 • モデル構造の妥当性・計算量の小ささ・性能保証の良 さ・解釈可能性が機械学習では重要

×