Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
正例とラベルなしデータからの分類に
基づく半教師付き分類
坂井智哉, Marthinus C. du Plessis,
Gang Niu, 杉山将
1
(Semi-Supervised Classification Based on
Class...
分類問題
データ点のクラス(カテゴリー)を明らかにする
具体例
ウェブサイトがフィッシングサイトか否か
画像がネコか否か
2
決定境界
画像出典: http://www.image-net.org/ http://sozaing.com/
教師付き分類
ラベル付きデータ (正例と負例) からの分類
たくさんラベル付きデータがあれば高い分類精度
ラベル付きデータは高価
3
クラス: +1 クラス:-1
: 正例
: 負例
決定境界
教師なし分類
ラベルのないラベルなしデータだけを用いる
クラスタリングとも呼ばれる
ラベル付けの費用がかからない
データがクラスタに分かれていないと,
正しく結果を得られない
4
ラベルなしデータ
半教師付き分類
ラベル付きデータとラベルなしデータからの分類
ラベル付けの費用を抑えられる
従来法は分布に対する強い仮定を必要とする
例)クラスタ仮定: 同じクラスタに属するデータ点は
同じラベルを持つことを要求
5
: 正例
: 負例
...
正例とラベルなしデータからの分類
負例の代わりにラベルなしデータが与えられる
PUデータの例: 広告クリックデータ
データ分布に対する強い仮定なしでラベルなしデータを
利用可能
6
クラス: +1 ラベルなし
(du Plessis et ...
提案する方法の概要
教師付き分類とPU分類を組み合わせる
データ分布に対する強い仮定なしにラベルなしデータを
利用可能
7
正例と負例
半教師付き分類PU分類
決定境界
正例とラベルなしデータ 正例と負例と
ラベルなしデータ
教師付き分類
発表の流れ
1. 背景
2. 問題設定と従来法
3. 提案法
4. 解析
5. 実験
6. まとめ
8
問題設定
正例 (P), 負例 (N), ラベルなしデータ (U):
分類器: (例 )
損失関数: (例 )
リスク:
リスクを小さくする分類器が欲しい
9
0-1損失を選べば誤識別率と等価
PN分類 (教師付き分類)
正例と負例から計算されるPNリスクを最小化する
ように分類器を訓練:
実用上は,訓練データで近似した経験PNリスクを利用:
10
正例を誤って負例と
分類すると損失を被る
負例を誤って正例と
分類すると損失を被る
*...
PU分類
正例とラベルなしデータから計算されるPUリスクを
最小化するように分類器を訓練
* PUリスクはPNリスクと等価
11
PUリスク:
負データの期待値が現れない
ラベルなしデータの性質から
よって,
上式をPUリスクの第二項,第三項と...
発表の流れ
1. 背景
2. 問題設定と従来法
3. 提案法
4. 解析
5. 実験
6. まとめ
12
PUNU分類 = PU+NU
PU分類と対称なNU分類を組み合わせる
 PUNU分類におけるリスク(PUNUリスク):
13
PU分類 NU分類
PNU分類 = PN+PU & PN+NU
あるいは,PN分類とPUまたはNU分類を組み合わせる
 PNUリスク:
 PNPUリスク:
 PNNUリスク:
14
PUNU vs. PNU分類
PN, PU, NU分類を比較した理論解析によると,
PNU分類は場合Iと場合IIにおいてベストなものの
組み合わせであるが,PUNU分類はそうではない
PNU分類がPUNU分類よりも有望
15
(Niu et...
PNU分類の振る舞い
2次元の人工データでの提案法の挙動
16
NU PUPN
組み合わせで
誤識別率最小
入力データと決定境界 の影響(試行回数20回)
正データ
負データ
ラベルなしデータ
最適な決定境界
推定した決定境界 実用上は, を交...
発表の流れ
1. 背景
2. 問題設定と従来法
3. 提案法
4. 解析
5. 実験
6. まとめ
17
ラベルなしデータの役割
Q. どのようにラベルなしデータが役立つか?
18
A. が増加するにつれて誤識別率が減少
誤識別率
良い
汎化誤差上界
汎化誤差:
分布に対する強い仮定なしに, 汎化誤差上界を証明:
 ラベルなしデータが汎化誤差上界の減少に役立つ
PNNUとPUNUともに同様の性質を持つ
19
どのような に対しても,
が確率 以上で,すべての に対して成り立つ...
PNUリスクを用いたハイパーパラメータ選択
Q. PNリスク とPNUリスク ,
どちらを検証スコアに用いると良いか?
20
は より良い
: を検証スコアに使用
A. PNUリスク
: を検証スコアに使用
誤識別率
分散低減効果
分布に対する強い仮定なしに,以下を証明:
のとき
PNUリスクの方がPNリスクよりも分散が小さい (安定)
 安定なPNUリスクがハイパーパラメータ選択時の
検証スコアに有用
21
ただし
ただし
(交差確認法)
発表の流れ
1. 背景
2. 問題設定と従来法
3. 提案法
4. 解析
5. 実験
6. まとめ
22
ベンチマークデータでの実験設定
ガウスカーネルモデルを利用:
比較手法:
エントロピー正則化 (ER)
ラプラシアンSVM (LapSVM)
二乗損失相互情報量正則化 (SMIR)
弱ラベル付きSVM (WellSVM)
安全半教師付...
誤識別率(低いほど良い)
全体的に,PNU分類の分類精度が良い
24
*色付きのセルは平均誤識別率が最も低い手法と,それと有意差5%のt検定で同等の手法を示す
平均と標準誤差
また,理論解析の通り,PUNUよりもPNUの精度が良い
計算時間
平均計算時間
PNU分類は計算効率が良い
25
計算時間[秒]
画像分類での実験設定
二つの似た景色を分類する (データセット: Places 205)
タスクの例
AlexNetを用いて抽出した特徴ベクトル を使用
入力に関する線形モデルを利用:
26
Desert sand vs. Desert ...
誤識別率(低いほど良い)
PNU分類は性能が良い
27
*”N/A”は計算時間が2時間を超えた手法
平均と標準誤差
クラス事前確率 はエネルギー距離最小化に基づいた手法により推定
(Kawakubo et al., IEICE, 2015)
まとめ
 PU分類に基づく半教師付き分類手法を提案
 PNU分類
 提案したリスク推定量を理論的に解析
 汎化誤差上界
 分散低減効果
 提案法の有用性を実験的に示した
28
コードが利用可能:
http://www.ms.k.u-...
Upcoming SlideShare
Loading in …5
×

夏のトップカンファレンス論文読み会 (9/18, 2017): Semi-Supervised Classification Based on Classification from Positive and Unlabeled Data

夏のトップカンファレンス論文読み会(CVPR/ICML/KDD etc.)
https://abeja-innovation-meetup.connpass.com/event/63466/
の資料です.

紹介論文,
Semi-Supervised Classification Based on Classification from Positive and Unlabeled Data
http://proceedings.mlr.press/v70/sakai17a.html

コード(MATLAB): http://www.ms.k.u-tokyo.ac.jp/software.html#PNU
コード(Python): https://github.com/t-sakai-kure/PNU

  • Be the first to comment

夏のトップカンファレンス論文読み会 (9/18, 2017): Semi-Supervised Classification Based on Classification from Positive and Unlabeled Data

  1. 1. 正例とラベルなしデータからの分類に 基づく半教師付き分類 坂井智哉, Marthinus C. du Plessis, Gang Niu, 杉山将 1 (Semi-Supervised Classification Based on Classification from Positive and Unlabeled Data) コードが利用可能: http://www.ms.k.u-tokyo.ac.jp/software.html#PNU ICML2017 1 2 1,2 1,2 東京大学 理化学研究所 2,1 @夏のトップカンファレンス論文読み会 または,https://github.com/t-sakai-kure/PNU (Python実装)
  2. 2. 分類問題 データ点のクラス(カテゴリー)を明らかにする 具体例 ウェブサイトがフィッシングサイトか否か 画像がネコか否か 2 決定境界 画像出典: http://www.image-net.org/ http://sozaing.com/
  3. 3. 教師付き分類 ラベル付きデータ (正例と負例) からの分類 たくさんラベル付きデータがあれば高い分類精度 ラベル付きデータは高価 3 クラス: +1 クラス:-1 : 正例 : 負例 決定境界
  4. 4. 教師なし分類 ラベルのないラベルなしデータだけを用いる クラスタリングとも呼ばれる ラベル付けの費用がかからない データがクラスタに分かれていないと, 正しく結果を得られない 4 ラベルなしデータ
  5. 5. 半教師付き分類 ラベル付きデータとラベルなしデータからの分類 ラベル付けの費用を抑えられる 従来法は分布に対する強い仮定を必要とする 例)クラスタ仮定: 同じクラスタに属するデータ点は 同じラベルを持つことを要求 5 : 正例 : 負例 (Chapelle et al., NIPS, 2002) : ラベルなしデータ  従来法は,仮定が成り立たないデータで性能が出ない
  6. 6. 正例とラベルなしデータからの分類 負例の代わりにラベルなしデータが与えられる PUデータの例: 広告クリックデータ データ分布に対する強い仮定なしでラベルなしデータを 利用可能 6 クラス: +1 ラベルなし (du Plessis et al., NIPS, 2014) : 正例 : ラベルなしデータ Positive and Unlabeled data クリックされなかった広告は負例としてよいか? ページの後部にあったため,途中で別のページに移ったかも. その広告にも興味があるが,同時に興味のある別の広告を…
  7. 7. 提案する方法の概要 教師付き分類とPU分類を組み合わせる データ分布に対する強い仮定なしにラベルなしデータを 利用可能 7 正例と負例 半教師付き分類PU分類 決定境界 正例とラベルなしデータ 正例と負例と ラベルなしデータ 教師付き分類
  8. 8. 発表の流れ 1. 背景 2. 問題設定と従来法 3. 提案法 4. 解析 5. 実験 6. まとめ 8
  9. 9. 問題設定 正例 (P), 負例 (N), ラベルなしデータ (U): 分類器: (例 ) 損失関数: (例 ) リスク: リスクを小さくする分類器が欲しい 9 0-1損失を選べば誤識別率と等価
  10. 10. PN分類 (教師付き分類) 正例と負例から計算されるPNリスクを最小化する ように分類器を訓練: 実用上は,訓練データで近似した経験PNリスクを利用: 10 正例を誤って負例と 分類すると損失を被る 負例を誤って正例と 分類すると損失を被る * 損失関数として,例えばヒンジ損失を選べば, SVMの目的関数になる
  11. 11. PU分類 正例とラベルなしデータから計算されるPUリスクを 最小化するように分類器を訓練 * PUリスクはPNリスクと等価 11 PUリスク: 負データの期待値が現れない ラベルなしデータの性質から よって, 上式をPUリスクの第二項,第三項と置き換えるとPNリスクを得る 経験PUリスク: (du Plessis et al., 2014; 2015)
  12. 12. 発表の流れ 1. 背景 2. 問題設定と従来法 3. 提案法 4. 解析 5. 実験 6. まとめ 12
  13. 13. PUNU分類 = PU+NU PU分類と対称なNU分類を組み合わせる  PUNU分類におけるリスク(PUNUリスク): 13 PU分類 NU分類
  14. 14. PNU分類 = PN+PU & PN+NU あるいは,PN分類とPUまたはNU分類を組み合わせる  PNUリスク:  PNPUリスク:  PNNUリスク: 14
  15. 15. PUNU vs. PNU分類 PN, PU, NU分類を比較した理論解析によると, PNU分類は場合Iと場合IIにおいてベストなものの 組み合わせであるが,PUNU分類はそうではない PNU分類がPUNU分類よりも有望 15 (Niu et al., NIPS, 2016) が十分大きいとき(場合I) (場合II)  PUまたはNU分類がベスト  PN分類が常にベスト が小さいとき PU < PN < NU分類の順に分類誤差が小さい NU < PN < PU または, PN < PU < NU PN < NU < PU または,
  16. 16. PNU分類の振る舞い 2次元の人工データでの提案法の挙動 16 NU PUPN 組み合わせで 誤識別率最小 入力データと決定境界 の影響(試行回数20回) 正データ 負データ ラベルなしデータ 最適な決定境界 推定した決定境界 実用上は, を交差確認法で選ぶ 誤識別率
  17. 17. 発表の流れ 1. 背景 2. 問題設定と従来法 3. 提案法 4. 解析 5. 実験 6. まとめ 17
  18. 18. ラベルなしデータの役割 Q. どのようにラベルなしデータが役立つか? 18 A. が増加するにつれて誤識別率が減少 誤識別率 良い
  19. 19. 汎化誤差上界 汎化誤差: 分布に対する強い仮定なしに, 汎化誤差上界を証明:  ラベルなしデータが汎化誤差上界の減少に役立つ PNNUとPUNUともに同様の性質を持つ 19 どのような に対しても, が確率 以上で,すべての に対して成り立つ 0-1損失: (Ref. )
  20. 20. PNUリスクを用いたハイパーパラメータ選択 Q. PNリスク とPNUリスク , どちらを検証スコアに用いると良いか? 20 は より良い : を検証スコアに使用 A. PNUリスク : を検証スコアに使用 誤識別率
  21. 21. 分散低減効果 分布に対する強い仮定なしに,以下を証明: のとき PNUリスクの方がPNリスクよりも分散が小さい (安定)  安定なPNUリスクがハイパーパラメータ選択時の 検証スコアに有用 21 ただし ただし (交差確認法)
  22. 22. 発表の流れ 1. 背景 2. 問題設定と従来法 3. 提案法 4. 解析 5. 実験 6. まとめ 22
  23. 23. ベンチマークデータでの実験設定 ガウスカーネルモデルを利用: 比較手法: エントロピー正則化 (ER) ラプラシアンSVM (LapSVM) 二乗損失相互情報量正則化 (SMIR) 弱ラベル付きSVM (WellSVM) 安全半教師付きSVM (S4VM) 23 (Grandvalet & Bengio, NIPS, 2004) (Belkin et al., JMLR, 2006) (Niu et al., ICML, 2013) (Li et al., JMLR, 2013) (Li & Zhou, PAMI, 2015)
  24. 24. 誤識別率(低いほど良い) 全体的に,PNU分類の分類精度が良い 24 *色付きのセルは平均誤識別率が最も低い手法と,それと有意差5%のt検定で同等の手法を示す 平均と標準誤差 また,理論解析の通り,PUNUよりもPNUの精度が良い
  25. 25. 計算時間 平均計算時間 PNU分類は計算効率が良い 25 計算時間[秒]
  26. 26. 画像分類での実験設定 二つの似た景色を分類する (データセット: Places 205) タスクの例 AlexNetを用いて抽出した特徴ベクトル を使用 入力に関する線形モデルを利用: 26 Desert sand vs. Desert vegetation Subway station platforms vs. Train station platforms (Zhou et al., NIPS, 2014)
  27. 27. 誤識別率(低いほど良い) PNU分類は性能が良い 27 *”N/A”は計算時間が2時間を超えた手法 平均と標準誤差 クラス事前確率 はエネルギー距離最小化に基づいた手法により推定 (Kawakubo et al., IEICE, 2015)
  28. 28. まとめ  PU分類に基づく半教師付き分類手法を提案  PNU分類  提案したリスク推定量を理論的に解析  汎化誤差上界  分散低減効果  提案法の有用性を実験的に示した 28 コードが利用可能: http://www.ms.k.u-tokyo.ac.jp/software.html#PNU または,https://github.com/t-sakai-kure/PNU (Python実装あり) 手法について更に知りたい方は論文[link]へ

×