Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

200211 mixmacth

1,098 views

Published on

NeurIPS 2019読み会@京都における発表資料

Published in: Data & Analytics
  • Be the first to comment

200211 mixmacth

  1. 1. NeurIPS2019読み会 in 京都 MixMatch: A Holistic Approach to Semi-Supervised Learning Kyoto February11, 2020 株式会社エクサウィザーズ 藤井亮宏
  2. 2. STRICTLY CONFIDENTIAL | 2 自己紹介 名前 : 藤井亮宏(アキヒロ) ExaWizardsにおける仕事内容 • Machine Learning Engineer • 画像分類 • 物体検知 • 時系列解析 • 異常検知 • ML系のイベント主催 • CVPR, AAAI等の重要国際会議 • GAN等の⽣成モデルに絞った勉強会 @AkiraTOSEI @akihiro_f ML関係のことを週1くらいで投稿 論⽂の⼀⾔紹介とか
  3. 3. STRICTLY CONFIDENTIAL | 3 書誌情報 Title: MixMatch: A Holistic Approach to Semi-Supervised Learning Date of post: 2019/ 05/06(arXiv) Authors & Institutes:
  4. 4. STRICTLY CONFIDENTIAL | 4 半教師あり学習とは? 半教師あり学習とは、少数のラベルありデータと多数のラベルなしデータを 使って学習する手法 教師あり学習 半教師あり学習
  5. 5. STRICTLY CONFIDENTIAL | 5 半教師あり学習の活用場面 半教師あり学習があると、高コストなアノテーションをせずにタスクの難易度 がある程度判断できる 顧客 弊社 1万データアノテーション中… 顧客 良いモデル作って❤ あと1万ラベル付け して❤ 弊社 何の成果も… 得られませんでした… 顧客 弊社 難易度⾼そう… さよか… 良いモデル作って❤ まず予備試験するわ。 ラベル付データ少なく てええよ 半教師あり学習がないとき 半教師あり学習があるとき
  6. 6. STRICTLY CONFIDENTIAL | 6 Summary 3つの有力な手法を組み合わせた半教師あり学習手法MixMatchというを提案、250 ラベルデータ(+ラベルなしデータ)のみで学習できる Unlabeled data labeled data Unlabeled data & pseudo label Labeled data & real label Data Mixup ① ラベルなしデータの予測⼀貫性 (Consistency Regularization) ② 予測分布に温度項を導⼊(Entropy Minimization) ③ MIXUPで正則化(Traditional Regularization) ①Consistency Regularization ②Entropy Minimiza6on ③Tradi6onal Regulariza6on
  7. 7. STRICTLY CONFIDENTIAL | 7 Consistency Regularization データ拡張前後で予測結果が変わらないような制約をかける 単純な例 MixMatchにおける使い⽅ 様々な変換に対して同じ予測を返すように制約をかける 様々な変換をかけた予測結果の平均値を擬似ラベルとし、それとモデルの予測値 の差分を⽬的関数に組み込む 予測が違うとペナルティ 擬似ラベル モデルの予測値 予測が違うとペナルティ
  8. 8. STRICTLY CONFIDENTIAL | 8 Entropy Minimization 温度項Tの導入でラベルなしデータの擬似ラベルの予測対象を“絞る”ことにより、 決定境界をデータがない部分に持ってこれる(ラベル毎の分布が小さくなる) T=1(Sharpenなし) (T<1) T --- 0 --- 1 entropy ⼤ 温度項TでSoftmax分布の形をコント ロールする Softmax Sharpened Softmax 予測分布が“絞られる”とEntropyが⼩さくなる
  9. 9. STRICTLY CONFIDENTIAL | 9 Traditional Regularization MIXUP(データ拡張手法)による正則化 [1.0, 0.0] [0.0, 1.0] [0.4, 0.6] 𝑥!, 𝑦! 𝑥", 𝑦" $𝑥, $𝑦MIXUP 𝐵𝑒𝑡𝑎 0.2,0.2 𝐵𝑒𝑡𝑎 1.0,1.0 𝐵𝑒𝑡𝑎 10.0,10.0
  10. 10. STRICTLY CONFIDENTIAL | 10 全体のアルゴリズム MixMatchで作ったミニバッチを、ラベルデータが含まれやすい方と含まれに くい方を分けて最適化 Shuffle MixMatch ラベルデータが必ず含まれるデータセットX’ ラベルデータが必ずしも含まれないデータ セットU’ ラベルが含まれやすい⽅は 通常のCross Entropy ラベルが含まれにくい⽅は 緩やかに損失をかける
  11. 11. Results
  12. 12. STRICTLY CONFIDENTIAL | 12 Results1 少数のラベルありデータでも、全学習データをラベルありデータとして使った 教師あり学習に匹敵する結果 ※ラベルありデータ以外の学習データは、全てラベルなしデータとして使用 全学習データの0.50% 全学習データの0.34% CIFAR10 SVHN
  13. 13. STRICTLY CONFIDENTIAL | 13 Results2 それぞれの手法の精度への貢献を比較。ラベルなしデータにおけるMixupと温 度項による予測分布Sharpeningの貢献が大きいことがわかる。 データ拡張後に平均をとる:K 分布を鋭利化する温度項:T K=2, T=0.5
  14. 14. STRICTLY CONFIDENTIAL | 14 資料に付加価値を!!! 実際に動かして遊んでみました。 h4ps://github.com/ntozer/mixmatch-tensorflow2.0 使⽤したレポジトリのMixMatch再現実験結果 ⾊々試すには⼗分な精度
  15. 15. STRICTLY CONFIDENTIAL | 15 実験したかったこと ハイパーパラメータってどれくらいロバストなの?? (@250ラベルデータCIFAR10) 論⽂における値 λUの値 75 λUが最⼤値になるま でのステップ数 16000 温度項T 0.5
  16. 16. STRICTLY CONFIDENTIAL | 16 学習の概観1 学習にかなり時間がかかる (CIFAR10なのに。。。) 4days 8hours with V100 ※レポジトリ のCIFAR10 の250ラベルデータ⽤デフォルトで実験
  17. 17. STRICTLY CONFIDENTIAL | 17 学習の概観2 最初はラベルありデータの教師信号から学習を行い、それらへの過適合が始 まった後はラベルなしデータによる正則化が効果を発揮してさらに学習を進め ていると考える。 ラベルありデータのロス ラベルなしデータのロス ⼀度下がったあとに上がり続ける 少数のラベルデータ による過適合で⼀度 ロスが上がった後、 係数が増加するにつ れ最適化が進んだと 考える。 学習が進むにつれて、設定値まで徐々に⼤きくなる
  18. 18. STRICTLY CONFIDENTIAL | 18 実験の結果 『温度項をより下げる』『目的関数におけるラベルなしデータの影響を大きく する』による精度への悪影響はなさそう。 (学習は途中打ち切り) 論⽂における値 実験1 (レポジトリ の デフォルト設定) 実験2 (擬似ラベルをより シャープに) 実験3 (急激にラベルなし データの影響を⼤き くする) 実験4 (乱数による実験設 定) λUの値 75 75 75 112 50 λUが最⼤値になるま でのステップ数 16000 16000 16000 1750 (設定値の11%) 10667 (設定値の66%) 温度項T 0.5 0.5 0.25 0.5 0.5 Validの最 ⼤Acc 88.92%(※1) 85.03% 88.67% 87.91% 87.03% まだ学習途中?? ※1 論⽂では、最後の20評価ステップの平均値をとっている
  19. 19. STRICTLY CONFIDENTIAL | 19 まとめ • 半教師あり学習手法MixMatchでは以下3つを使用 • ラベルなしデータの予測に⼀貫性を持たせるConsistency regularization • 温度項でラベルの予測を“絞る”Entropy Minimization • 正則化⼿法MIXUP • 250ラベルデータだけでも教師あり学習の精度に近い性能を発揮する • 学習時間はかなりかかる(論文結果を再現するならV100で数日以上@CIFAR10) • ハイパーパラメータにある程度のロバスト性があることを確認(実業務でもある 程度使えそう)
  20. 20. STRICTLY CONFIDENTIAL | 21 Reference • David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, Colin Raffel. MixMatch: A Holistic Approach to Semi-Supervised Learning. NeurIPS2019 • https://www.cs.toronto.edu/~kriz/cifar.html

×