データでみる機械学習と制御理論の類似点と相違点

データでみる機械学習と
制御理論の類似点と相違点
丸田一郎 (京都大学)

2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
制御理論
機械学習
検索インタレストの動向 by Google Trends
← 類似点相違点 →

本発表の背景と方針
目標
• 今を時めく機械学習の分野に
興味がある制御研究者への情報提供
背景
• 経験値が足りない
（機械学習についてはど素人）
方針
• 機械学習の流儀に倣う
⇒ データが大量にあればなんとかなる！？
• 制御分野と相対化する

本発表の構成
1. 周辺分野の可視化
2. キーワード出現頻度の分析
3. Word2vecによる重要キーワードの分析

周辺分野の可視化
• データマイニング・人工知能・自然言語処理・コン
ピュータビジョンなどの周辺分野と機械学習の境界が
よくわからない
• どこから手を付けていいかわからない
分野間の関係をグラフとして可視化
• ノード → 刊行物(学術誌/予稿集) ，エッジ → 引用数
• Citation Network Dataset [Ametminer, 2016/4]
DBLPをもとにした引用情報付きデータベース
文献数 3,272,991件，引用数 8,466,859件
• 互いの引用数が多い刊行物が近くに配置されるよう
可視化&クラスタリング

ノード数 1590 ⇒ 全体をみるにはちょっと多すぎる
https://maruta.github.io/visnet-dml/full/

Automatica
ICML
https://maruta.github.io/visnet-dml/
ノード数 1590 ⇒ Automatica or ICML に隣接する
１４５ノードに限定

コンピュータ
ビジョン
ロボット
信号処理
ニューラル
ネット
制御
ファジー最適化
AI
言語
データマイニング
このあたりが俗にいう
機械学習っぽい領域
学習理論
狭義の機械学習
狭義の機械学習分野は
隣接分野との結合が強く
凝縮したクラスタを為さない
制御分野は機械可読な
データが少ない

本発表の構成
1. 周辺分野の可視化
2. キーワード出現頻度の分析
3. Word2vecによるキーワードの分析

キーワード出現頻度の分析
機械学習/制御の特徴をキーワード出現頻度から考察
⇒ 論文における単語/フレーズの出現頻度を計測
コーパス（大量の文章データ）
• 機械学習分野 (10,256ファイル / 52,867,111単語)
NIPS 1987~2016，ICML 2007~2016 など
• 制御分野 (38,501ファイル / 180,044,623単語)
CDC 1996~2016，ACC 1999~2016 など
２分野のコーパスでの出現頻度を計算 ⇒ 比較

詳細版は予稿集，簡易版は https://maruta.github.io/dml-wordcloud/
色・ウエイト：２分野の差
大きさ：２分野の和

制御分野で頻出共通機械学習分野で頻出
特徴 Dynamics
State
Stability
Continuous-time
Discrete-time
Model
Performance
Estimate
Analysis
Cost
Stochastic
Random variable
Distribution
Probability
Log-likelihood
道具 LMI (SDP)
SOS
Optimization
Least-squares
Gradient descent
Greedy
問題 Linear/Nonlinear Complexity High-dimensional
応用 Simulation results
Numerical example
Application Real world
Toy example
𝑶𝑶 𝒏𝒏𝟑𝟑 以下ならOK
線形＋α
制御は浮世離れが進んでいる
(単純な非線形)高次
𝑶𝑶(𝒏𝒏)以下が好まれる

2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
制御理論
機械学習
ところで・・・・
←この前後の違いが
気になる
第3次人工知能ブーム

1990 1995 2000 2005 2010 2015
0
20
40
出現頻度の変遷deepを含む
論文の割合(%)
Bayesianを含む
論文の割合(%)
第３次人工知能ブームに
関連するキーワード
ピーク時期に基づいてキーワードを分類
制御理論
機械学習
1990 1995 2000 2005 2010 2015
0
20
40
相対的に割を食った
キーワード
制御理論
機械学習

キーワード栄枯盛衰 in 機械学習
ピークキーワード
~2008 Kernel, SVM
~2011 Bayesian, Manifold, Graphical
~2015 Sparsity, Convex, ADMM, Nuclear norm
増加中 Gradient, Bandit, Spectral
Combinatorial, Regularization
Tensor, Submodular
急上昇 LSTM (Long Short Term Memory)
SGD（Stochastic Gradient Descent）
リバイバル Neural Network, Q learning

Word2vec [Mikolov, 2013]とは？
コーパスをもとに，単語からベクトルへの写像
𝑣𝑣: 単語 ↦ 𝑅𝑅300
を作るツール．
単語間の関係性を反映したベクトルが得られる
⇒ 東京𝑣𝑣 パリ − 𝑣𝑣 フランス + 𝑣𝑣 日本
に最も近いベクトルに対応する単語は？
使用例

制御/機械学習分野の論文をコーパスとする
専門用語の関係性を反映した写像が得られている
controllability – input + output = observability
Kalman Filter – linear +nonlinear = EKF
ここでは “stability” に近い機械学習分野の単語を検索
制御分野における重要なキーワード
機械学習の分野における重要なキーワードが知りたい

制御分野に頻出機械学習分野に頻出
Passivity
Robustness
Controllability
Well-posedness
Feasibility
Observability
Solvability
Positivity
Safety
Invertibility
Diagnosability
Validity
Reachability
Reliability
Rigidity
Identifiability
Consistency
Convexity
Convergence rate
Tractability
Scalability
Computational efficiency
Submodularity
Tightness
Provable
Theoretical guarantees
Interpretability
Better understanding
モデル構造の
妥当性
計算量の小ささ
性能保証の良さ
モデルの
解釈可能性
stability の word2vec 的類義語（抜粋）

まとめ
引用関係に基づく機械学習周辺分野のクラスタリング
• データマイニング・言語処理のあたりが
制御から遠くておもしろそう
キーワード出現頻度に基づく特徴づけ
• 制御 ⇒ ダイナミクス,小データ & 低速高精度な最適化
• 機械学習 ⇒ 確率的, 大データ＆高速低精度な最適化
Word2vecに基づく重要キーワードの分析
• モデル構造の妥当性・計算量の小ささ・性能保証の良
さ・解釈可能性が機械学習では重要

データでみる機械学習と制御理論の類似点と相違点

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to データでみる機械学習と制御理論の類似点と相違点

Similar to データでみる機械学習と制御理論の類似点と相違点 (20)

データでみる機械学習と制御理論の類似点と相違点