2018年5月17日
機械学習研究の
現状とこれから
機械学習研究の
現状とこれから
理化学研究所 革新知能統合研究センター
東京大学 大学院新領域創成科学研究科
杉山 将
日本ソフトウェア科学会 機械学習工学研究会
2
自己紹介
現職:
 理化学研究所・センター長:研究者とともに
 東京大学・教授:学生とともに
 企業・技術顧問:エンジニアとともに
専門分野:
 機械学習の理論・アルゴリズム開発
 機械学習の実世界応用
(音声,画像,言語,脳波,ロボット,
自動車,光学,広告,医療,生命など)
機械学習の国際会議の動向
 参加者数が激増:
 ICML: International Conference on Machine Learning
 NIPS: Neural Information Processing Systems
 企業のスポンサーも非常に活発:
 00年代前半:アメリカのIT企業(Google, IBM, Yahoo, Microsoft...)
 00年代後半:世界中のIT企業 (Amazon, Facebook, Linkedin,
Tencent, Baidu, Huawei, Yandex…)
 10年代:製造・金融など様々な業種のスタートアップ~大企業
3
2013 2014 2015 2016 2017
ICML 900 1200 1600 3000+ 2400 (Sydney)
NIPS 1200 2400 3800 6000+ 7500+ (California)
ICML2016の採択論文の分布 4
アメリカ
企業
.com
フランス
イギリス
イスラエル
スイス 日本(10件≒3%)
ドイツ カナダ
• アメリカ一強
(多数の中・韓・印・欧を含む)
• 日本人は非常に少ない
• 中国が猛烈な勢いで追い上げ
機械学習研究の現状と課題
現状の機械学習によって,
 音声認識,画像理解,言語翻訳
などはヒトと同等以上の性能を達成
しかし,更なる飛躍には課題がある:
 機械学習技術の研究開発に多大なコスト:
世界中の企業が研究者・技術者を青田買い
 ビッグデータの収集に多大なコスト:
ネットからビッグデータが取れない問題は,
現状の機械学習技術では精度が悪い
 様々な規制がネック:
個人情報保護,倫理規定・・・
5
講演の流れ
1. 機械学習技術の研究開発に多大なコスト
2. ビッグデータの収集に多大なコスト
3. まとめと今後の展望
6
7
最も汎用的なアプローチ
機械学習には様々なタスクがある
データを生成する規則(確率分布)を推定すれば,
あらゆる機械学習タスクが解決できる!
 例:各クラスのデータの
生成分布がわかれば,
パターン認識ができる
生成的アプローチとよばれる
決定境界
クラス+1 クラス-1
データの生成
規則を知る
データの
全てを知る
各タスクに特化したアプローチ
しかし,確率分布の推定は困難であるため,
生成モデル推定に基づくアプローチによって,
必ずしも高い学習精度が得られるとは限らない
確率分布の推定を行わず,各タスクを直接解く
 例:サポートベクトルマシンでは,
各クラスのデータ生成分布
を推定せず,パターン認識に
必要な決定境界のみを学習
 パターン認識に対しては,
識別的アプローチとよばれる
8
クラス+1 クラス-1
決定境界
各タスクに特化したアプローチ
各タスクに特化したアルゴリズムを
開発した方が,原理的には
生成的アプローチよりも性能が良い
しかし,様々なタスクに対して個別に
研究開発を行うのは大変:
 アルゴリズム考案
 理論的性能評価
 高速かつメモリ効率の良い実装
 エンジニアの技術習得
9
中間的なアプローチ
あるクラスのタスク群に対して,研究開発を行う
 汎用性と有効性のトレードオフを取る
10
生成的アプローチ 中間アプローチ タスク特化アプローチ
11
確率密度比に基づく機械学習
多くの機械学習タスク群は
複数の確率分布を含む
しかし,これらのタスクを解くのに,それぞれ
の確率分布そのものは必要ない
確率密度関数の比が分かれば十分である
各確率分布は推定せず,
密度比を直接推定する
r(x) =
p(x)
q(x)
非定常環境下での適応学習,ドメイン適応,
マルチタスク学習,二標本検定,異常値検出,
変化点検知,クラスバランス推定,相互情報
量推定,独立性検定,特徴選択,十分次元削
減,独立成分分析,因果推論,クラスタリング,
オブジェクト適合,条件付き確率推定,確率的
パターン認識
Sugiyama, Suzuki & Kanamori,
Density Ratio Estimation
in Machine Learning,
Cambridge University Press, 2012
12
最小二乗密度比適合
データ: ,
真の密度比 との二乗誤差を最小にする
ように密度比モデル を学習:
Kanamori, Hido & Sugiyama (JMLR2009)
r(x)
min
®
J(®)
J(®) =
1
2
r®(x) ¡ r(x)
2
q(x)dx r(x) =
p(x)
q(x)
fxq
j g
nq
j=1
i:i:d:
» q(x)fxp
i g
np
i=1
i:i:d:
» p(x)
ここまでのまとめ
密度比は,単純な最小二乗法で最適推定できる
多くの学習タスクが実は最小二乗法で解ける:
 重点サンプリング:
 ダイバージェンス推定:
 相互情報量推定:
 条件付き確率推定:
各機械学習タスクを直接解くのではなく,抽象化
したタスクの集合に対する解法を開発する
13
講演の流れ
1. 機械学習技術の研究開発に多大なコスト:
密度比推定の理論と応用
2. ビッグデータの収集に多大なコスト:
限られた情報からの機械学習
3. まとめと今後の展望
14
ビッグデータを用いた機械学習
画像認識,音声認識,機械翻訳などで,
人間と同等かそれ以上の性能を達成
しかし,応用分野によっては,
教師付きビッグデータを簡単に取れない
 医療データ解析
 インフラの管理
 自然災害の防災・減災
 機能材料の開発
限られた情報からの学習が重要!
15
2クラスの教師付き分類
大量のラベル付きデータを用いれば,
精度良く分類境界が学習できる
ラベル付きデータ数 に対して,分離境界
の推定誤差は の速さで減っていく
16
正
負
分離境界
教師なし分類 17
ラベル付きデータの収集にはコストがかかるため,
容易に入手できるラベルなしデータを用いる
教師なし分類はただのクラスタリングに過ぎない
データがクラス毎にクラスタに分かれていないと,
正しく分類できない
半教師付き分類
大量のラベルなしデータに加えて,
少量のラベル付きデータを利用
結局,教師なし分類と同じくクラスタリングする
データがクラス毎にクラスタに分かれていないと,
正しく分類できない
18
正
負
ラベルなし
分類問題の分類 19
高精度でラベル付コストの低い分類手法
が重要!
ラベルあり
(教師付き学習)
ラベルなし
(教師なし学習)
ラベルありとなし
(半教師付き学習)
ラ
ベ
ル
付
け
コ
ス
ト
高
低学習の精度
高
高低
高精度
&
低ラベル付コスト
新手法1:正例とラベルなし
データからの分類
20
負例が全くなくても,正例とラベルなしデータ
だけから,最適な分類ができる
例:
 クリック vs. 非クリック
 友達 vs. 非友達
正
ラベルなし
(正と負の混合)
du Plessis, Niu & Sugiyama (NIPS2014, ICML2015)
Niu, du Plessis, Sakai, Ma & Sugiyama (NIPS2016)
Kiryo, du Plessis, Niu & Sugiyama (NIPS2017)
新手法2:半教師付き分類 21
「正例とラベルなしデータからの分類」は最適
それに「正例と負例からの分類」を組み合わせ
ても最適
正
負
ラベルなし
Sakai, du Plessis, Niu & Sugiyama (ICML2017)
Sakai, Niu & Sugiyama (MLJ2018)
新手法3:正信頼度からの分類
正クラスのデータしか取れない:
 他社のデータは取れず自社のデータしか取れない
 成功例は入手できても失敗例は入手できない
信頼度さえ分かれば,
最適な分類ができる
22
Ishida, Niu & Sugiyama (arXiv2017)
正信頼度
95%
70%
5%
20%
新手法4:類似データ対からの分類
類似データ対:
 同じクラスに属する標本対
 しかしクラスはわからない
財産,宗教,政治など,デリケートな質問に対して,
 明示的に趣向を回答するのははばかられる
 「あの人と同じ」であれば回答しやすい!
類似データ対と
ラベルなしデータだけから
最適な分類ができる
23
Bao, Niu & Sugiyama (ICML2018)
新手法5:教師なし分類 24
クラスタ構造がない場合でも,クラス比の異なる
ラベルなしデータが2セットあれば,教師付き
学習と同じ収束率を達成可能
クラス比
=3:7
クラス比
=7:3
du Plessis, Niu & Sugiyama (TAAI2013)
新手法6:補ラベルからの分類
多クラスの訓練データのラベル付けは高コスト
 多数の候補クラスから正しいものを選ぶ必要がある
補ラベル:
 パターンが属さないクラスの
ラベル(補ラベル)を与える
 補ラベルをつけるのは低コスト
「間違ったラベル」だけから,
最適な分類ができる!
25
Ishida, Niu & Sugiyama (NIPS2017)
クラス 1
クラス 2
決定
境界クラス 3
弱教師付き学習のまとめ
低ラベル付けコストで
高精度な機械学習
手法が有用!
26
UU, PU, PNU, SU,
Pconf, Comp…
あらゆるデータを
有効活用!
ラベルあり
(教師付き学習)
ラベルなし
(教師なし学習)
ラベルありとなし
(半教師付き学習)
高
低学習の精度
高
高低
Sugiyama, Sakai, Ishida & Niu
Machine Learning
from Weak Supervision,
MIT Press, in preparation.
ラ
ベ
ル
付
け
コ
ス
ト
流行りの深層学習との関係は?
深層学習=深層モデルを使った機械学習
学習法の研究はモデルの研究と直交!
27
線形 カーネル 深層 …
モデル
加法
教師付き学習
教師なし学習
…
強化学習
学習法
新しい学習法を作れば,
最新の深層モデルと組合せ可!
講演の流れ
1. 機械学習技術の研究開発に多大なコスト:
密度比推定の理論と応用
2. ビッグデータの収集に多大なコスト:
限られた情報からの機械学習
3. まとめと今後の展望
28
今後の展望
 人工知能(過去):
 1次ブーム(1960年頃):
記号処理,論理推論
 2次ブーム(1980年頃):
エキスパートシステム
 ニューラルネット(過去) :
 1次ブーム(1960年頃):
パーセプトロン(1層)
 2次ブーム(1990年頃):
誤差逆伝播法(多層)
29
 機械学習(現在):
 1995年頃~:統計・凸最適化
 1995年頃~:ベイズ推論
 2010年頃~:深層学習
知能の要素技術を高度化
 汎用人工知能(将来):
知能の要素技術を統合

機械学習研究の現状とこれから