Successfully reported this slideshow.
Your SlideShare is downloading. ×

Recent Advances on Transfer Learning and Related Topics Ver.2

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 192 Ad

More Related Content

Slideshows for you (20)

Similar to Recent Advances on Transfer Learning and Related Topics Ver.2 (10)

Advertisement

Recently uploaded (20)

Recent Advances on Transfer Learning and Related Topics Ver.2

  1. 1. Recent Advances on Transfer Learning and Related Topics (ver.2) Kota Matsui RIKEN AIP Data Driven Biomedical Science Team December 14, 2019
  2. 2. Acknowledgement 理研 AIP 非凸学習理論チームの熊谷亘氏に感謝申し上げます. 本発表の内容は, 熊谷氏との共同研究, ディスカッションに 大きく依存しています. また, 内容をチェックし, 重要なコメントを多数頂いた東京大学 の幡谷龍一郎氏, 手嶋毅志氏, 河野慎氏に感謝いたします. K. Matsui (RIKEN AIP) Transfer Learning Survey 1 / 180
  3. 3. Table of contents i 1. Introduction 2. Foundations of Transfer Learning 3. Paradigm Shift in Transfer Learning via Deep Learning 4. Related Fields of Transfer Learning 5. Topics in Transfer Learning 6. Theory of Transfer Learning (Instance Transfer) K. Matsui (RIKEN AIP) Transfer Learning Survey 2 / 180
  4. 4. Table of contents ii 7. Impossibility Theorems for Domain Adaptation 8. Theory of Transfer Learning (Parameter Transfer) 9. Immunity : An Optimality of Domain Adaptation 10. Life-long (Continual) Learning 11. Concluding Remarks K. Matsui (RIKEN AIP) Transfer Learning Survey 3 / 180
  5. 5. Introduction
  6. 6. 転移学習って? 素朴な観察 人間は, ある問題に取り組む際に全く知識の無い状態からス タートするか? NO : 人間は過去に経験した問題解決から得た知識を現在の問 題に転用できる • 過去の知識の積み上げができる • 問題の間の類似構造を自然に把握できる • 獲得した知識を繰り返し転用することができる Research Question これらの機能を計算機上で実現するには??? K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 4 / 180
  7. 7. 機械学習 / Machine Learning 人工知能研究の一分野として “Field of study that gives computers the ability to learn without being explicitly programmed” [Samuel (1959)]. データ科学の一分野として “The term machine learning refers to the automated detection of meaningful patterns in data” [Shalev-Shwartz&Ben-David (2014)]. ’ • “Machine Learning” の出典 A. Samuel “Some Studies in Machine Learning Using the Game of Checkers”, 1959. • generalization (汎化, 学習した能力 が未知の事例に対しても上手く働く こと) の考え方も論じられている     K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 5 / 180
  8. 8. 機械学習における様々なタスク: 教師あり学習 入力 x と出力 y のペアから入出力関係 x → y を獲得 K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 6 / 180
  9. 9. 機械学習における様々なタスク: 教師なし学習 入力 x のみからその特徴を抽出 K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 7 / 180
  10. 10. 機械学習における様々なタスク: 半教師あり学習 (a) 少量のラベルありデータのみでは良いモデルは学 習できない (b) ラベルありデータに加えて大量のラベルなしデー タを用いることで良いモデルを学習することが 出来る K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 8 / 180
  11. 11. 機械学習における様々なタスク: 能動学習 i x1 x2 y ε x f(x) y = f(x) + ε 不確実性の下でブラックボックス関数 f に関する統計的推論を 行うためのデータ観測戦略を考える K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 9 / 180
  12. 12. 機械学習における様々なタスク: 能動学習 ii 能動学習の基本的な問題設定 • 候補入力 x1, ..., xn が与えられている • 関数 f を評価して出力 yi = f(xi) を得るにはコスト (e.g. 時 間, 費用...) がかかる このとき, できるだけ少ないコスト (観測回数) で 問題設定 1: 関数推定 関数 f を精度良く推定したい f∗ = arg min ˆf∈F n∑ i=1 (f(xi) −ˆf(xi))2 問題設定 2: 最適化 関数 f の maximizer を求めたい x∗ i = arg max x∈{x1,...,xn} f(x) K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 10 / 180
  13. 13. 機械学習における様々なタスク: 能動学習 iii 探索と活用のトレードオフ 探索 事前知識のないパラメータに対して観測を行う • これまでよりも良くなるかもしれない未知の パラメータを試す 活用 実験済みのパラメータ値に近いパラメータに対し て観測を行う • これまでに良かったパラメータを活かす 探索のみを行っていると過去の実験結果が活かせず, 活用ばか り行っているとまだ見ぬ良いパラメータを発見できない → 両者のバランスを取りながら最適なパラメータを探す K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 11 / 180
  14. 14. 機械学習における様々なタスク: 強化学習 a s r 様々な応用 環境とエージェントの相互作用の結果を用いて意思決定モデル の学習, 最適化を行う K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 12 / 180
  15. 15. 機械学習の定式化 i • 入力空間 X ⊂ Rd • 出力空間 Y • Y = {0, 1} : 2 値判別 • Y = R : 回帰 • (Y = {c} (1 点集合) : 教師なし学習) • データ生成分布 P = P(X, Y) • 仮説 h : X → Y 入出力関係を予測する • 損失関数 ℓ • 0-1 損失 (判別) : ℓ(ˆy, y) = 1[ˆy ̸= y] = { 1 if y ̸= ˆy 0 otherwise • 二乗損失 (回帰) : ℓ(ˆy, y) = |ˆy − y|2 • (再構成損失 (教師なし学習) : ∥ˆx − x∥2 ) K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 13 / 180
  16. 16. 機械学習の定式化 ii Definition 1 (期待リスク) データ (X, Y) の従う分布 P の下での仮説 h の期待リスクは R(h) := E(X,Y)∼P[ℓ(h(X), Y)] 期待リスクを最小にする仮説 h を見つけることが (教師付き) 機械学習の目的 実際には真の分布 P は未知なのでサンプル近似 E(X,Y)∼P[ℓ(h(X), Y)] ≈ 1 N N∑ i=1 ℓ(h(xi), yi) を最小にする h を探す K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 14 / 180
  17. 17. 転移学習の定式化 i Definition 2 (ドメイン) • Z : abstract な集合 • PZ : Z 上の確率分布 の組 (Z, PZ) をドメイン と呼ぶ Ex • Z = X, PZ = PX (教師なし学習) • Z = X × Y, PZ = PX×Y (教師付き学習) 特に (以降 Z = X × Y を想定して) • (ZS, PS) を元ドメイン (source domain) と呼び • (ZT, PT) を目標ドメイン (target domain) と呼ぶ K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 15 / 180
  18. 18. 転移学習の定式化 ii 転移学習の目標 元ドメイン (ZS, PS) での学習を通して目標ドメイン (ZT, PT) に おける期待リスク RT(h) を最小化する. Ex (判別問題) (ZT, µT) で高い判別性能を示す判別関数 h を見つ ける {(xS i , yS i )}NS i=1 data ∈ XS × YS −−−−−→ training ˆh = arg min h 1 NS NS∑ i=1 ℓ(h(xS i ), yS i ) −−→ test 1[ˆh(xT j ) = yT j ], xT j ∈ XT K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 16 / 180
  19. 19. 伝統的な機械学習と転移学習の関係 伝統的な機械学習は, 転移学習の特別な場合に相当: 元ドメイン = 目標ドメイン. すなわち, ZS = ZT and PS = PT Ex (2 値判別問題) • P & N ∼ PXS×{0,1} (元) • U ∼ PXS (目標) • ラベル無しの目標データを 正しく判別する境界はラベ ルありの元データから学習 できる. 実際にはこの仮定が成り立たない問題がいくらでもある K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 17 / 180
  20. 20. 元ドメインと目標ドメインが異なる例 i サンプル空間がドメイン間で異なる XS ̸= XT K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 18 / 180
  21. 21. 元ドメインと目標ドメインが異なる例 ii データの分布がドメイン間で異なる PS ̸= PT Training Data (source domain) Hospital A Hospital B Hospital C Training Prediction Model Apply Hospital D (target domain) •  Multi-center prognostic analysis Ø  source : 3 different hospitals Ø  target : a hospital •  Task : to learn a prediction model in S that performs well in T •  Probability distribution of covariates of the patients can differ among hospitals A Transfer Learning Method for Multi-Center Prognostic Prediction Analysis [Matsui+ 2018] K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 19 / 180
  22. 22. 元ドメインと目標ドメインが異なる例 iii Fig: [Yang+ (2009)] • 元ドメインと目標ドメインの “違い方” によって対応する 観測データの “違い方” も変わる K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 20 / 180
  23. 23. 転移学習の必要性 異なるドメインのデータや知見を統合して取り扱うための 方法論 • 目標ドメイン, 元ドメインともにデータが少数のとき → 各ドメインのデータを統合して活用できる • 医学研究などの small data な領域で威力を発揮 • 目標ドメインは小データだが元ドメインにデータが大量に あるとき → 各ドメインで要約統計量を学習しておき, それを別のド メインで活用できる • 生データを保持しなくて良いのでストレージやメモリの節 約になる • プライバシーの観点からもメリットがある? K. Matsui (RIKEN AIP) Transfer Learning Survey Introduction 21 / 180
  24. 24. Foundations of Transfer Learning
  25. 25. 転移学習 i 定性的な定義 [NIPS’05 workshop] 目標タスクの効果的な仮説を効率的に見つけ出すために, 一 つ以上の別のタスクで学習された知識を適用する問題 数学的な定式化 (再掲) ZS ̸= ZT あるいは PS ̸= PT である場合に, 目標ドメインの期待 リスク RT(h) を最小にするような仮説 h を見つける Fig: [Pan&Yang (2010)] K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 22 / 180
  26. 26. 転移学習 ii • 様々な関連分野がある • domain adaptation (transfer learning の別称) • self-taught learning [Raina+ (2007)] • multi-task learning [Caruana (1997)] • meta-learning [Brazdil+ (2008), Vanschoren (2018)] • learning to learn [Thrun&Pratt (1998)]... • 最近では深層学習への応用により注目度が増大 • pre-training [Bengio+ (2007), Erhan+ (2010)] • fine-tuning [Girshick+ (2014)] • few-shot learning [Palatucci+ (2009), Fu+ (2018)] • representation learning [Hinton (1986), Zhuang+ (2015)]... • 一方で非常に多くの設定 (転移仮定) があり, 各設定に対し て個別に手法が考察されている状況 • distribution shift [Sugiyama+ (2012), Courty+ (2017)] • heterogeneous transfer learning [Daume III ACM (2007), Duan+ (2012)]... K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 23 / 180
  27. 27. 転移学習の分類 • Pan&Yang (2010) や神嶌 (2009) では各ドメインのラベルの有無で分類 • 上記文献では, 以下のように少し呼称が異なる • 元: ラベル有, 目標: ラベル無 → トランスダクティブ転移学習 • 元: ラベル無, 目標: ラベル無 → 教師なし転移学習 • 最近では右上の設定が “教師なし転移学習” と呼ばれる K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 24 / 180
  28. 28. 教師付き転移学習 i • 元ドメイン, 目標ドメインそれぞれでラベル付きデータが 利用可能 → ただし, 目標ドメインのラベル付きデータは元ドメイン のそれよりも非常に少数と想定 • 共変量とラベルの同時分布がドメイン間で異なる: PS(X, Y) ̸= PT(X, Y) • 同時分布のずれを補正しながら目標ドメインの経験リスク を最小にする仮説 h を探す K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 25 / 180
  29. 29. 教師付き転移学習 ii : TrAdaBoost アンサンブル学習である AdaBoost を転移学習のために改 良 [Dai+ (2007)] • 両ドメインのラベル付きデータから弱学習器を学習 • 初期の重みは両ドメインのデータに等しく与える • 誤差の大きい目標データは重みを大きくし, 誤差の大きい 元データは重みを小さくする wt+1 i =    wt iβ |lossi| t for target data wt iβ −|lossi| t for source data • 学習の前半の弱学習器は捨て, 後半のものだけ使って分類 器を構成 hf(x) =    1 if ∏N t=⌈N/2⌉ β −ht(x) t ≥ ∏N t=⌈N/2⌉ β −1/2 t 0 otherwise K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 26 / 180
  30. 30. 教師なし転移学習 • transfer learning や domain adaptation 研究の主流の設定 • 元ドメインではラベル付きデータ, 目標ドメインではラベ ル無しデータのみが利用可能な場合 • 目標ドメインで学習ができないため, 直接目標リスクを最 小化する仮説を探索できない • 目標ドメインのラベル情報がないため, 元ドメインのラベ ル付きデータを有効利用するためには何らかの仮定が必要 (転移仮定, 詳細は後述) • 共変量シフト [Shimodaira (2000)] PT(Y | X) = PS(Y | X) • ターゲットシフト [Redko+ (2018)] PT(X | Y) = PS(X | Y) • 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (2016)] K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 27 / 180
  31. 31. 半教師あり転移学習 / 能動的転移学習 i 根本的な問い • 教師なし転移学習 (学習時からテスト時までずっと目標ド メインのラベルが無い状況) は妥当な問題設定なのか? • 目標ドメインでも少しはラベルが取れる状況を考える方が 自然では? → 半教師あり学習/能動学習 • 半教師あり転移学習 : 元ドメインではラベルありデータ, 目標ドメインでは少量 のラベルありデータと大量のラベル無しデータが使える • 能動的転移学習 : 目標ドメインのどのインスタンスにラベルを付けるかを適 応的に選択 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 28 / 180
  32. 32. 半教師あり転移学習 i 問題設定 • 元ドメインで available なデータ: • ラベルありデータ Ds = {(xs i , ys i )}ms i=1 • 目標ドメインで available なデータ: • ラベルありデータ Dt = {(xt i, yt i)}mt i=1, • ラベル無しデータ Du = {xu i }mu i=1 目的 Ds, Dt, Du から目標ドメインのための予測モデルを学習 → 目標ドメインにラベルありデータが存在するのでモデルの 評価が可能 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 29 / 180
  33. 33. 半教師あり転移学習 ii Semi-supervised DA via Minimax Entropy [Saito+ (2019)] 1. ドメイン不変な prototype (各クラスの代表元) を推定 2. 推定した prototype を使って xu i から discriminative features を抽出 → 特徴抽出器とタスク判別器の間の敵対的学習として定式化 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 30 / 180
  34. 34. 能動的転移学習 i 問題設定 • 元ドメインで available なデータ: • ラベルありデータ Ds = {(xs i , ys i )}ms i=1 • 目標ドメインで available なデータ: • ラベルありデータ Dt = {(xt i, yt i)}mt i=1 • 初期状態で Dt ̸= ∅ の場合 [Wang+ 2014] • 初期状態で Dt = ∅ の場合 [Su+ 2019] • ラベル無しデータ Du = {xu i }mu i=1 目的 Ds, Dt, Du を用いて, Du の元のラベルを適応的に観測しなが ら目標ドメインのための予測モデルを学習 → 目標ドメインにラベルありデータが存在するのでモデルの 評価が可能 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 31 / 180
  35. 35. 能動的転移学習 ii Active Transfer Learning under Model Shift [Wang+ (2014)] アプローチ 1 : 事後分布のマッチング Pr(Ynew | Xs ) = Pr(Yt | Xt ) • Ynew は Xs に対応するラベル Ys の location-scale 変換 Ynew = Ys ⊙ w(Xs ) + b(Xs ) • 変換関数 w(·), b(·) は連続関数になるように形を制限 • 事後分布マッチングは両者の discrepancy 最小化で達成 アプローチ 2 : ガウス過程モデリング • Ds で学習した GP から, Dt の true と予測の差 ˆZ = Yt − ˆYt を正規モデリング • Ds のラベルを変換: Ynew = Ys + ˜Z, ˜Z ∼ N(˜µ(ˆZ), ˜Σ) £ 両アプローチ共に {Xs, Ynew} ∪ {Xt, Yt} で予測モデルを学習 £ uncertainty sampling で次の評価点を決定 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 32 / 180
  36. 36. 能動的転移学習 iii Active Adversarial Domain Adaptation [Su+ (2019)] Domain Adversarial Training (ドメイン適応) + Importance Weighting (能動学習) £ sample selection の方針 • 経験損失が大きい点を取る vs 重要度が高い点を取る • 重要度は GAN の discriminator から計算: pT(ˆx) pS(ˆx) = 1−G∗ d (ˆx) G∗ d (ˆx) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 33 / 180
  37. 37. 自己教示学習 • 元ドメインではラベル無しデータのみが, 目標ドメインではラベル付き データが利用可能な場合 • 元ドメインで教師なし特徴抽出し, 目標ドメインの教師付き学習に援用 Supervised Classification Semi-supervised Learning Transfer Learning Self-taught Learning K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 34 / 180
  38. 38. 強化学習における転移学習 i [久保 2019] では強化学習においてモデルの転移能力を獲得する ための主要な 2 つのアプローチを紹介 1. メタ学習 (モデルの転移能力の獲得) • Learning to learn : 教育の仕方の学習 • Learning to train : 学習の仕方の学習 2. 転移学習 (知識やデータの再利用) • Sim2Real : シミュレーションから現実への転移 • domain randomization : シミュレーションの多様化 詳細は後述 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 35 / 180
  39. 39. 強化学習における転移学習 ii 別の定式化 ドメインを “タスク空間とタスク分布のペア” と考えたエージ ェントベースの転移学習 (4 種類の転移シナリオ) Task Space Task Space N1 N2 NM M1 M2 M3 M4 1. Across two agents of different domains 2. Across two agents in the same domains 3. Across two agents in the same task 4. Across multi-agents in the same domain Fig : [Fachantidis 2016]K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 36 / 180
  40. 40. 転移学習の基本的な問題 1. What to transfer (何を転移するか) • instance transfer (データそのものを転移) • feature transfer (抽出した特徴を転移) • parameter transfer (学習したモデルや特徴抽出器を転移) 2. When to transfer (いつ転移するか) • 転移学習が成功するのは元ドメインと目標ドメインが似て いるとき • 例: covariate-shift [Shimodaira (2000)] PrS[y | x] = PrT[y | x] • 負転移 (転移によって目標ドメインの性能が低下) 3. How to transfer (どう転移するか, 具体的なアルゴリズム) • 例: 重要度重み付き学習 [Sugiyama+ (2012)] • 例: 最適輸送によるドメイン適応 [Courty+ (2017)] K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 37 / 180
  41. 41. What to Transfer : Instance Transfer 元ドメインのデータを目標ドメインのデータとして学習に 用いる 例: 重要度重み付き学習, 最適輸送に基づくドメイン適応 • homogeneous な状況を想定 (ドメイン間で標本空間は共通) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 38 / 180
  42. 42. What to Transfer : Feature Transfer 元ドメインと目標ドメインで共通の特徴を抽出し学習に用いる 例: Augmented features [Duan+ (2012)] • heterogeneous な状況を想定 (ドメイン間で標本空間が異なる) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 39 / 180
  43. 43. What to Transfer : Parameter Transfer i 元ドメインで学習したモデルや特徴抽出器のパラメータを目標 ドメインで用いる 例: fine-tuning … 1000 … 20 Fine-tuning L∇ ( )iiL yx , • あるデータセットで予め学習した NN の出力層を目標データで再学習 • 出力層の手前までのネットワークのパラメータは固定 → ただしこの定義にはいくつか流派? がある模様 (次ページ) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 40 / 180
  44. 44. What to Transfer : Parameter Transfer ii Fig:[Li&Hoiem (2016)] • [Li&Hoiem (2016)] では出力層手前までも再学習するものを fine-tuning と呼んでいる (元ドメインの学習結果を warm-start とする) • 出力層手前までを固定するものは feature extraction と呼ばれている K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 41 / 180
  45. 45. When to Transfer : Discrepancy i 何らかの指標で元ドメインと目標ドメインが “似ている” とき 転移を実施 例: ドメインの確率分布の不一致度 (discrepancy) • discrepancy が小さいとき, 目標ドメインのデータは元ドメインとよく 似た生成メカニズムを持っていると考えられる • 様々な discrepancy が定義されている • H∆H divergence [Ben-David+ (2010)] • Wasserstein distance [Courty+ (2017)] • source-guided discrepancy [Kuroki+ (2019)] K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 42 / 180
  46. 46. When to Transfer : Discrepancy ii Integral Probability Metrics (IPM) [Sriperumbudur+ (2012)] DiscG(PT, PS) := sup g∈G |ET[g] − ES[g]| • PT, PS はそれぞれ元ドメイン, 目標ドメインの確率分布, g はテスト関数 • Wasserstein metric, total variation, kernel MMD, source-guided discrepancy などを含む統一的な discrepancy の定式化 • M = supx∈X,g∈G g(x) とする. このとき, 確率 1 − δ 以上で以下のサンプ ル近似バウンドが成立 |DiscG(PT, PS) − DiscG(ˆPT, ˆPS)| ≤ 2ℜT,nT (G) + 2ℜS,nS (G) + M √ 18 log 4 δ ( 1 √ nT + 1 √ nS ) • ℜT,nT (G), ℜS,nS (G) : 目標ドメイン, 元ドメインにおける G のラデマ ッハ複雑度 • nT, nS : 各ドメインのサンプルサイズ → 転移学習の理論解析時に非常に有用 K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 43 / 180
  47. 47. When to Transfer : 転移仮定 i ドメインの “類似” をより積極的にモデリングする 例 i: 共変量シフト [Shimodaira (2000)] • 元ドメインと目標ドメインでラベル付けルールが共通 PS(Y | X) = PT(Y | X) • 重要度重み付き ERM で効果的にモデルの学習が可能 (詳細は後述) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 44 / 180
  48. 48. When to Transfer : 転移仮定 ii ドメインの “類似” をより積極的にモデリングする 例 ii: ターゲットシフト [Zhang+ (2013), Redko+ (2019)] • 元ドメインと目標ドメインで入力分布が共通 PS(X | Y) = PT(X | Y) • ドメイン毎にクラスバランスが異なる状況を想定 • [Redko+ (2018)] では最適輸送を使って効果的なモデルの学習を実現 (Fig) ただし一般には最適輸送はこのような問題は苦手 (輸送前と後でラベル を保存するため) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 45 / 180
  49. 49. When to Transfer : 転移仮定 iii ドメインの “類似” をより積極的にモデリングする 例 iii: 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (2014)] Latent space D ' ^ / : , D W1 ↙ ↘ W2 D ' ^ / : , D ' ^ / : , Observed view 1 Observed view 2 ( ) • 適当な射影によって homogeneous な空間に落とせる (左) • 隠れ空間からの写像によって様々な表現が観測される (右) K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 46 / 180
  50. 50. When to Transfer : 負転移 ドメインバイアスとも呼ばれる (メタ学習の文脈) • 2 つのシナリオ 1. 一方のドメインのみで学習したモデルを目標タスクで用いる 2. 転移学習によって学習したモデルを目標タスクで用いる で (2 の目標タスク性能) ≤ (1 の目標タスク性能) のとき負 転移 (negative transfer) という • 2 つのドメインが乖離しているほど負転移が発生しやすい 1.0 0.2 0.4 0.6 0.8 0.0 1.0 0.2 0.4 0.6 0.8 0.0 AUC AUC The number of target training casesThe number of target training cases (a) (b) source only transfer target only source only transfer target only K. Matsui (RIKEN AIP) Transfer Learning Survey Foundations of Transfer Learning 47 / 180
  51. 51. Paradigm Shift in Transfer Learning via Deep Learning
  52. 52. 深層学習の登場は転移学習をどう変えたか? • 転移学習の観点では, 表現学習としての深層学習の発展が 大きなポイント • これまでマニュアルで設計していた特徴量をネットワーク が自然に獲得 • 転移学習においては, データから各ドメインに関する特徴 の抽出も可能になった • ドメイン不変な特徴量はそのまま転移可能 • 特徴を独立な成分に分解し, ドメイン間で共有されている 成分は転移し, 異なっている成分は転移しない (disentangled representation, 後述) K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 48 / 180
  53. 53. 深層ニューラルネットによる特徴表現の獲得– 1 week for training • 5 conv. layers + 3 fully connected layers Layer 5 – 2 GPUs – 1 week for training conv. layers + 3 fully connected layers 13 Conv 1 : EdgeColor Conv 3 : Texture Conv 5 : Object Parts FC 8 : Object Classes AlexNet [Krizhevski+ (NIPS12)] Fig : Ushiku, ACML2019 Tutorial ZeilerFergus, ECCV2014 K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 49 / 180
  54. 54. 転移学習としての表現学習 output y1 output y3output y2 Fig: [Bengio+ (2013)] • ドメイン不変な特徴を獲得する • オートエンコーダや敵対的学習 (後述) などが良く用いられる K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 50 / 180
  55. 55. オートエンコーダによる表現学習 Transfer Learning with Deep Autoencoders [Zhuang+ (2015)] • オートエンコーダによる教師付き表現学習 min Err(x, ˆx) reconstruction error +α (KL(PS||PT) + KL(PT||PS)) discrepancy +β ℓ(yS; θ, ξS) softmax loss +γReg • 元ドメインと目標ドメインで encoding 層と decoding 層の重みを共有 K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 51 / 180
  56. 56. 敵対的学習による表現学習 Domain Adversarial Training [Ganin+ (2016)] ptrue(X) pz(z) G(z; θg) pg(X) D(x; θd) xo xf PS(X) PT (X) D(x; θd) xS xT G(·; θE) φS φT • 敵対的学習 (左図) をドメイン適応に応用 (右図) • ドメイン不変な特徴表現の学習が目的 K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 52 / 180
  57. 57. 敵対的学習による表現学習 ii Domain Adversarial Training [Ganin+ (2016)] • 入力データを特徴抽出器に噛ませ, クラスラベルの識別器 (通常の識別 器, 上段) とドメインラベルの識別器 (下段) にそれぞれ入力 • ドメイン識別器の学習は gradient に負定数をかけ逆伝播する gradient reversal layer を導入することで実現 K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 53 / 180
  58. 58. ドメインの類似と相違の獲得 i Domain Separation Networks [Bousmalis+ (2016)] • ドメインの “違い” をネットワークに学習させる • private encoder でドメイン固有の特徴を学習し, shared encoder でド メイン横断的な特徴を学習する K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 54 / 180
  59. 59. ドメインの類似と相違の獲得 ii 定式化 : 4 つの損失関数の重み付き和を最小化 min L = Ltask + αLrecon + βLdiff + γLsim • 第 1 項は判別誤差 (負の対数尤度) Lclass = − ∑ i yS i log ˆyS i • 第 2 項は元の特徴と変換後の特徴の再構築誤差 Lrecon = ∑ i ℓ(xS i , ˆx S i ) + ∑ j ℓ(xT j , ˆx T j ), ℓ(x, ˆx) = 1 k ∥x − ˆx∥2 − 1 k2 ((x − ˆx)⊤ 1)2 • 第 3 項はドメイン共有の特徴とドメイン固有の特徴を直交方向に学習 させる Ldifference = Hs⊤ c Hs p 2 F + Ht⊤ c Ht p 2 F • 第 4 項はドメインの類似性に関する誤差 e.g. 交差エントロピー ∑ ˆ ( ˆ ) K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 55 / 180
  60. 60. Disentangled Representation i もつれのない表現 [Achille+ (2018), Locatello+ (2019),...] • データが独立な複数の構成要素からなる場合にその独立成 分を個別に取り出すような特徴表現 • 特に複数のドメイン間での転移可能性に重きが置かれる Fig : Evaluating the Unsupervised Learning of Disentangled Representations K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 56 / 180
  61. 61. Disentangled Representation ii Disentangled Representation の学習: 変分オートエンコーダ (VAE) X qφ(z | X) pθ(X | z) ˆXz ∼ N(0, I) β-VAE [Higgins+ (2017)] ベースの方法が多数提案されている Lβ = 1 N N∑ n=1 (Eq [log p (xn|z)] − β KL (q (z|xn) ∥p(z))) • β = 1 が通常の VAE • β 1 とすることで第 2 項の罰則が学習に大きく寄与し, disentangled representation が獲得されやすくなる. • ただし β のチューニングに sensitive K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 57 / 180
  62. 62. Disentangled Representation iii β-VAE β-TCVAE Gender (-6, 6)female male Fig : [Chen+ 2018]β-TCVAE [Chen+ (2018)] Lβ−TC =Eq(z|n)p(n)[log p(n | z)] − αIq(z; n) − β KL ( q(z) ∏ q ( zj ) ) − γ ∑ KL ( q ( zj ) ∥p ( zj )) • VAE の第 2 項をさらに分解し項別に重み付け (α と γ は 1 で固定) • 第 3 項は total correlation と呼ばれ, この項へのペナルティが独 立な表現の獲得に大きく寄与する K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 58 / 180
  63. 63. Disentangled Representation iv 任意の生成モデルに対して, disentangled representation を教師なし 学習することは可能なのか? → モデル or データセットに inductive bias がなければ無理 Theorem 1 (教師なし学習不可能性 Locatello+ (2019)) d 1 として, r.v. z が従う分布 P の密度関数が p(z) = ∏d i=1 p(zi) と書けるとする. このとき, ある全単射 f : supp(z) → supp(z) の族が存在し, 1. ∂fi(u) ∂uj ̸= 0 a.e. ∀i, j 2. P(z ≤ u) = P(f(z) ≤ u), ∀u ∈ supp(z) 1 → z と f(z) は completely entangled 2 → z と f(z) は同じ周辺分布を持つ K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 59 / 180
  64. 64. Disentangled Representation v cf : Independent Component Analysis (独立成分分析, ICA) Fig : [Tharwat 2018] • 観測されるデータは, 独立な複数の発生源からのシグナル の混合であると考える • 単一ドメインにおける ある種の disentangled representation (表現の転移は基本的に考えない) ← 線形 ICA の場合 K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 60 / 180
  65. 65. Disentangled Representation vi cf : 非線形 ICA (Disentangled Representation との違いは???) • 真のシグナル (潜在変数) に非線形変換 がかかったものが データとして観測される • データから真の潜在変数を復元可能か? 復元の不可能性 [HyvärinenPajunen (1999)] 観測 x に対して, y = g(x) で定まる復元 y の各成分が独立にな るような変換 g が (常に) 存在する. ただしこの復元は一意に は定まらない → 独立性だけでは非線形 ICA はできない 復元のアイデア: contrastive learning [Hyvärinen+ (2018)] • 異なる複数の分布 (ドメインに相当) を識別するモデルを 学習する • ドメインラベルが正しく識別されるモデルの中間層で真の 潜在表現の extractor が獲得される K. Matsui (RIKEN AIP) Transfer Learning Survey Paradigm Shift in Transfer Learning via Deep Learning 61 / 180
  66. 66. Related Fields of Transfer Learning
  67. 67. Multi-Task Learning 複数の類似タスクを各タスクの情報を共有しながら同時学習 Fig: [Ruder (2017)] • NN の場合, ネットワークの構造を工夫してタスク間でパラ メータを共有する (上図) • 非 NN の場合, 各タスクのパラメータが近くなるような正 則化をかける (下式 3 項目): min θ1,...,θT 1 2 T∑ t=1 n∑ i=1 (fθt (xi) − yi)2 loss + 1 2 T∑ t=1 λt∥θt∥2 inner−task + 1 4 T∑ t,t′=1 γt,t′ ∥θt − θt′ ∥2 inter−task K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 62 / 180
  68. 68. Multi-View Learning i Fig: [Xu+ (2013)] 同じものが別の見え方で観測される K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 63 / 180
  69. 69. Multi-View Learning ii Principles for Multi-view Learning [Xu+ (2013)] 1. Consensus Principle [Dasgupta+ (2002)] Pr(f1 ̸= f2 ) ≥ max{Prerr(f1 ), Prerr(f2 )} • 2 通りの view に対する独立な仮説 f1 , f2 の誤差はこれらの 仮説が不一致である確率で上から抑えられる • co-regularization 型の手法: 予測損失 +consensus 正則化 ∑ L(yi, f(xi)) loss + ∑ (f1 (xi) − f2 (xi))2 regularization 2. Complementary Principle • 各 view は他の view がもたない情報を含む • 複数の view からデータの情報を補完して学習の性能を向 上させることができる → co-training 型の手法 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 64 / 180
  70. 70. Multi-View Learning iii Multi-view discriminant transfer (MDT) [YangGao (2013)] • 元ドメイン: {(xS i , zS i , yS i )} (2 views, ラベルありデータ) • 目標ドメイン: {(xT j , zT j )} (2 views ラベルなしデータ) Task: 目標ドメインデータのラベル yT j を当てる MDT の学習問題 max ξ ξ⊤Qξ ξ⊤Pξ ⇔ Qξ = λPξ (generalized eigenvalue problem) • P : view-wise within-class covariance • Q = Qw − c1Qd − c2Qc • Qw : between-class covariance に対応 • Qd : domain discrepancy に対応 • Qc : view consistency に対応 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 65 / 180
  71. 71. Meta-Learning i •  •  • stacked generalization • Model-Agnostic Meta-Learning (MAML) [Finn+ (2017)] • Task embedding (TASK2VEC) [Achille+ (2019)] K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 66 / 180
  72. 72. Meta-Learning ii : Stacked Generalization •  •  •  • 様々なアルゴリズムで仮説を学習し, その出力を入力とする上位の仮説 をさらに学習 • kaggle 等のコンペで強力なアプローチとして普及 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 67 / 180
  73. 73. Meta-Learning iii : Model-Agnostic Meta-Learning (MAML) 様々なタスクに共通に “良い初期値” を学習する Fig: [Finn+ (2017)] • パラメータ θ を勾配法の更新則によって異なるタスクに適応させる: θ′ i ← θ − α∇θLTi (fθ) ここで Ti は目標タスク, fθ はモデル, L は損失関数 • タスクの出現の仕方に関して SGD で適切なパラメータを学習: θ ← θ − β∇θ ∑ Ti∼p(T) LTi (fθ′ i ) 少ない更新回数で新たなタスクに適応できるようにパラメータを学習 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 68 / 180
  74. 74. Meta-Learning iv : Task Embedding (TASK2VEC) Fig: [Achille+ (2019)] • 学習済み NN の Fisher 情報行列を使ってタスクのベクトル 表現を獲得 → タスク間の類似度計算が可能に • タスク間の類似度からタスク毎の適切な特徴抽出機を予測 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 69 / 180
  75. 75. Learning to Optimize i Fig : Learning to Optimize with Reinforcement Learning £ 機械学習の成功は (データからのパターンの自動抽出のような) デ ータ駆動の考え方に依るところが大きい £ しかし学習アルゴリズムの設計は依然として人手に依っている → 学習アルゴリズムは学習可能? K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 70 / 180
  76. 76. Learning to Optimize ii [LiMalik ICLR2017] State Action Cost Policy f(x(i) ) Fig : Learning to Optimize with Reinforcement Learning • π の選び方によって最適化アルゴリズムが変わる → π の学習 = 最適化アルゴリズムの学習とみなせる • ある最適化アルゴリズムの実行はある固定された方策 π の下で MDP を実行する操作とみなせるみなせる → 強化学習 (Guided Policy Search) によって方策 π を学習 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 71 / 180
  77. 77. Learning to Learn i £ 多くの文献でlearning to learn = メタ学習 とされている £ 人間の • “あるタスクに対する能力を別の新規タスクに汎化する” 能力 • “汎化のために必要な経験 · 例 · 反復回数などを学習する” 能力 を計算機上で実現したい £ Learning to Optimize with Reinforcement Learning によれば, Learning to Optimize で損失関数を目的関数とした場合に相当 £ 学習するメタ知識の種類に応じて 3 種類に大別 1. Learning What to Learn [ThrunPratt (2012)] 2. Learning Which Model to Learn [Brazdil (2008)] 3. Learning How to Learn [LiMalik (2017), Andrychowicz+ (2016)] K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 72 / 180
  78. 78. Learning to Learn ii Learning to learn by gradient descent by gradient descent [Andrychowicz+ (2016)] Optimizee Optimizer t-2 t-1 t m m m + + + ft-1 ftft-2 ∇t-2 ∇t-1 ∇t ht-2 ht-1 ht ht+1 gt-1 gt θt-2 θt-1 θt θt+1 gt-2 • DNN の optimizer (SGD, RMSprop, ADAM...) の更新則を学習 • パラメータ ϕ で optimizer をパラメトリックモデリング: θt+1 = θt + gt(∇f(θt), ϕ) • ϕ に関する損失関数を最小化: L(ϕ) = Ef [f (θ∗ (f, ϕ))] K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 73 / 180
  79. 79. Few-shot Learning i Fig: [HariharanGirshick (2017)] • 興味あるタスク (目標ドメイン) のラベル付きデータが少数 (few) • one-shot : ラベル付きデータが 1 例のみ • zero-shot : ラベル付きデータ無し • 特に Zero-shot の場合は訓練時に見たことのないラベルをもつテスト データを扱う. ラベルそのものは観測できないが, ラベルについての補 助情報が学習可能という設定 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 74 / 180
  80. 80. Few-shot Learning ii Matching Networks [Vinyals+ (2016)] • one-shot learning において, 元ドメインデータ S = {(xi, yi)} が与えら れたとき目標データ x のラベル y の予測分布を NN で学習 P(y|x, S) = k∑ i=1 a (x, xi) yi • ニューラル機械翻訳の文脈での単語アラインメントモデルに対応 cf [Bahdanau+ (2015)] 3.1 節 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 75 / 180
  81. 81. メタ強化学習 i 過去のタスクの知見を使って新たな強化学習タスクを高速に 解く. • 学習者はタスク分布 P(T ) を持っていて, そこからのサンプ リングができるという設定 • 同じタスク分布からサンプリングされた新しいタスクに対 しては高速に適応する • 最近の meta-RL では特に, タスク = マルコフ決定過程 (MDP) としている アプローチ 方策を事前学習しておき, few-shot で現在のタスクに適応させ る [Wang+ (2016), Finn + (2017)] K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 76 / 180
  82. 82. メタ強化学習 ii Model-Agnostic Meta-Learning (MAML) [Finn+ (2017)] • MAML を RL に適用 • 損失関数として期待リワードを取る: LTi (fθ) = −Ext,at∼fϕ,qτi [ H∑ t=1 Ri (xt, at) ] • fθ : 方策関数 • Ri : タスク Ti におけるリワード関数 • 勾配法でパラメータ θ を最適化 (ただし期待リワードは一 般に微分不可能なので方策勾配を取る) K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 77 / 180
  83. 83. Sim2Real Training Test Fig : [Tobin+ 2017] • コストのかかる方策の学習をシミュレータ内で行い, 現実 の問題に転移 • シミュレータ側の精度向上が背景 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 78 / 180
  84. 84. Domain Randomization Fig: [Tobin+ (2017)] シミュレータのパラメータにランダムな摂動を加えて多様性を 持たせ, 目標ドメイン (現実の問題) を包含してしまうような元 ドメインを作る → 内挿問題化してしまおうという気分 K. Matsui (RIKEN AIP) Transfer Learning Survey Related Fields of Transfer Learning 79 / 180
  85. 85. Topics in Transfer Learning
  86. 86. Feature Augmentation i 元ドメインと目標ドメインの特徴ベクトルを統合して学習する Frustratingly Easy Domain Adaptation [Daumé (2007)] • 教師付き転移学習の方法 • 入力ベクトルを, ドメイン不変, 元ドメイン固有, 目標ドメ イン固有の 3 パートに対応するベクトルに変換: xS → ψS = (xS, xS, 0) xT → ψT = (xT, 0, xT) • ψS, ψT は同一次元のベクトルなので, 後は統合して教師付 き学習 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 80 / 180
  87. 87. Feature Augmentation ii Learning with Augmented Features [Duan+ (2012)] • Frustratingly Easy method + 共通空間への射影 xS → ψS = (PxS, xS, 0) xT → ψT = (QxT, 0, xT) P, Q は射影行列 • SVM のモデルパラメータと射影行列を同時に学習: min P,Q min w,b,ξi,ξi 1 2 ∥w∥2 + C ( ns∑ i=1 ξs i + nt∑ i=1 ξt i ) s.t. ys i ( w⊤ψs ( xs i ) + b ) ≥ 1 − ξs i , ξs i ≥ 0 yt i ( w⊤ψt ( xt i ) + b ) ≥ 1 − ξt i , ξt i ≥ 0 ∥P∥2 F ≤ λp, ∥Q∥2 F ≤ λq ∥ · ∥F は行列のフロベニウスノルム K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 81 / 180
  88. 88. Pseudo Labeling for Target Data i 教師なし転移学習において, 目標ドメインのラベル無しデータに擬似ラベル をつけて学習をすることで目標タスクの性能向上を図る • Self-training [Chen+ (2011)] • Co-training [Chen+ (2011)] • Tri-training [Saito+ (2017)] 疑似ラベル学習とエントロピー正則化の等価性 [Lee+ (2013)] L = 1 n n∑ i=1 ℓ (yi, h(xi; θ)) loss for labeled data +α(t) 1 n′ n′ ∑ j=1 ℓ ( y′ j , h(x′ j ; θ) ) loss for unlabeled data C(θ, λ) = n∑ i=1 log P (yi | xi; θ) + λ 1 n′ n′ ∑ j=1 P ( y = 1 | x′ j , θ ) log P ( y = 1 | x′ j , θ ) entropy regularization 上段: 疑似ラベル学習の目的関数, 下段: エントロピー正則化付き学習の目的 関数. 各項が対応関係にある. K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 82 / 180
  89. 89. Pseudo Labeling for Target Data ii Asymmetric Tri-training [Saito+ (2017)] K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 83 / 180
  90. 90. Domain Selection i DS1 = {{(xS1 i , yS1 i )} nS1 i=1 , PS1 } DS2 = {{(xS2 i , yS2 i )} nS2 i=1 , PS2 } DSK = {{(xSK i , ySK i )} nSK i=1 , PSK } DT = {{xT i }nT i=1, PT } • 複数の元ドメインから目標タスクに寄与するものを選択したい • ドメイン間の不一致度や目標ドメインのタスク性能を指標に選択 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 84 / 180
  91. 91. Domain Selection ii 不一致度と相補性に基づく元ドメイン選択 [Bhatt+ (2016)] T S1 S2 S3 S4 Disc(T, S1) ≤ Disc(T, S2) ≤ Disc(T, S3) ≤ Disc(T, S4) 1. 元ドメインを目標ドメインとの不一致度の大きさでランキング 2. 上位から, 既に選ばれたドメインと相補的になるように次を選択: 上図の例では S1 → S3 → S4 (S2 は選択しない) K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 85 / 180
  92. 92. Knowledge Distillation i 学習済みモデル (予測性能高, 複雑度高) の性能をより規模が小 さく学習しやすいモデルに継承させたい アイデア 元ドメインタスクのモデルパラメータを記憶して転移する (パラメータ転移) 必要はなく, 入出力関係が記憶されていれば 良い → (ノンパラメトリックな) 関数として転移 • 定式化 [Hinton+ (2015), Kimura+ (2018)] : min fT λ1 N N∑ i=1 ℓ1(yi, fT(xi)) + λ2 N N∑ i=1 ℓ2(fS(xi), fT(xi)) • fS は学習済みモデル, fT は目標モデル • 第 1 項は目標モデルに対する通常の損失 • 第 2 項は学習済みモデルの予測と目標モデルの予測を近づけるた めの損失 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 86 / 180
  93. 93. Knowledge Distillation ii Dark Knowledge An example of hard and soft targets 0 1 0 0 .9 .1 .05 .3 .2 .005 original hard targets output of geometric ensemble softened output of ensemble dog dog cat cow cat car 10 −910 −6 Softened outputs reveal the dark knowledge in the ensemble. cow car dog catcow car Fig : [Hinton+ (2014)] K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 87 / 180
  94. 94. Knowledge Distillation iii Born-Again Neurak Networks (BANs) Born-Again Neurak Networks [Furlanello+ (2018)] • 教師モデルと全く同じ構造の生徒モデルを複数学習しアンサンブルす ることで教師モデルを上回る性能のモデルが学習可能 • BANs の学習問題: シーケンシャルに以下の output matching を解く min θk L(f(x, arg min θk−1 L(y, f(x, θk−1))), f(x, θk)) • BANs Ensemble: 学習したモデルのアンサンブルで予測 ˆfk (x) = 1 k k∑ i=1 f(x, θi) K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 88 / 180
  95. 95. Catastrophic Forgetting i ニューラルネットが新規タスクを学習すると, 以前学習したタ スクの情報を忘れてしまう現象 [McCloskeyCohen (1989)] → 以前のタスクに対するパフォーマンスが低下 Example 1 (fine-tuning) 目標ドメインで出力層の再学習を行うとき, 誤差逆伝播法に よって元ドメインで学習したパラメータが破壊されてしまう … 1000 … 20 Fine-tuning L∇ ( )iiL yx , K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 89 / 180
  96. 96. Catastrophic Forgetting ii 対策 • Learning without forgetting [LiHoiem (2018)] • タスク間で共通のパラメータ θS • 元タスク固有のパラメータ θo • 目標タスク固有のパラメータ θn を用意して, 以下の最適化問題を解く (蒸留を使った定式化) min θS,θo,θn λo Lold(Yold, ˆYold) loss for old task + Lnew(Ynew, ˆYnew) loss for new task + R(θS, θo, θn) regularization • Elastic weight consolidation [Kirkpatrick+ (2017)] L(θ) = LB(θ) + i λ 2 Fi θi − θ∗ A,i 2 θ • 両タスクで error が小さくなるようなパ ラメータ空間の領域に入るように正則化 • 通常の L2 正則化に情報行列で重み付け K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 90 / 180
  97. 97. (Conditional) Neural Processes i Fig : [Kim+ (2019)] • 条件付き分布 p(y | x, Z, θ) の深層生成モデル [Garnelo+ 2018] • x : target input • Z = {(xi, yi)}M m=1 : context set • θ : model parameters • GP 回帰の事前知識を入れられる·予測の不確実性を評価で きる機能と NN の高い予測性能の良いとこ取りをしたい K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 91 / 180
  98. 98. (Conditional) Neural Processes ii x1 y1 x2 y2 x3 y3 MLPθ MLPθ MLPθ MLPΨ MLPΨ MLPΨ r1 r2 r3 s1 s2 s3 rCm m sC x rC ~ MLP y ENCODER DECODER Deterministic Path Latent Path NEURAL PROCESS m Mean z z * * x1 y1 x2 y2 x3 y3 MLP MLP MLP MLP MLP MLP r1 r2 r3 s1 s2 s3 m sC x ~ MLP y ENCODER DECODER Deterministic Path Latent Path Self- attnϕ Self- attnω Cross- attention x1 x2 x3 x r r ATTENTIVE NEURAL PROCESS m Mean Keys Query Values z z * * * * * Fig : [Kim+ (2019)] • ネットワーク構造は VAE に近い (左図) encode→reparametrization→decode • GP のような入力間の類似度を評価するためのオプション e.g. attention mechanism [Kim+ (2019)] (右図) K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 92 / 180
  99. 99. (Conditional) Neural Processes iii メタ学習への応用 [Galashov+ (2019)] Bayesian optimization from meta-learning viewpoint GP などの事前分布からターゲット関数の類似物をサンプリン グ可能 → 事前分布として Neural process を使用 Algorithm 1 Bayesian Optimisation Input: f∗ - Target function of interest (= T ∗ ). D0 = {(x0, y0)} - Observed evaluations of f∗ . N - Maximum number of function iterations. Mθ - Model pre-trained on evaluations of similar functions f1, . . . fn ∼ p(T ). for n=1, ... , N do // Model-adaptation Optimise θ to improve M’s prediction on Dn−1. Thompson sampling: Draw ˆgn ∼ M, find xn = arg minx∈X E ˆg(y|x) Evaluate target function and save result. Dn ← Dn−1 ∪ {(xn, f∗ (xn))} end for K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 93 / 180
  100. 100. (Conditional) Neural Processes iv メタ学習への応用 [Galashov+ (2019)] モデル M のサンプリングに neural process を用いる理由 1. statistical efficiency 少ない context point 数で正確に関数値評価が可能 2. calibrated uncertainties 探索と活用のバランス (モデルの不確実性評価) 3. 推論時の計算量が O(n + m) (サンプルサイズの線形オーダ ー, オリジナルの NP の場合) 4. non-parametric modeling → MAML のような推論時の学習率 · 更新頻度などのハイパ ラ設定が不要 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 94 / 180
  101. 101. (Conditional) Neural Processes v メタ学習への応用 [Galashov+ (2019)] Adversarial task search for RL agents [Ruderman+ 2018] Task (p∗ s, p∗ g) = argminps,pg fA(M, ps, pg) (M∗ , p∗ s, p∗ g) = argminM,ps,pg fA(M, ps, pg) 3 1. Position search: 2. Full maze search: •  •  •  •  fA M ps, pg K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 95 / 180
  102. 102. 能動学習のための転移学習 i Regret Bounds for Transfer Learning in Bayesian Optimisation [Shilton+ (2017)] • 材料科学などの “実験” を伴う分野はデータ数が少ないこ とに加えてデータ取得コストが非常に大きい → 実験計画 (能動学習) でデータの取得方針を最適化 • 一方, “実験” の大きな特徴として設定の異なる実験群を通 じて対象に関する知識が蓄積される → “よく似た実験”のデータが活用できる可能性がある 目的: ベイズ最適化に対して転移学習で別リソースからの知識を活 用する K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 96 / 180
  103. 103. 能動学習のための転移学習 ii アプローチ f’ f σS Env-GP f’ f ∆f f’+∆f Diff-GP • Env-GP : 元ドメインのデータを目標ドメインのデータと思 って使う (観測ノイズを十分大きく取ると, 目標ドメインの 関数からのサンプルとみなせる) • Diff-GP : 元ドメインの目的関数と目標ドメインの目的関数 のギャップを直接ガウス過程でモデリング K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 97 / 180
  104. 104. 能動学習のための転移学習 iii 応用: 適応的マッピング [穂積 + (2019)] K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 98 / 180
  105. 105. BERT [Devlin+ (2018)] Bidirectional Encoder Representations from Transformers • NLP における言語モデルの pre-training • BooksCorpus (800M words) + Eng. Wikipedia (2500M words) をコーパス として使用 • fine-tuning によって様々なタスクで高い性能を発揮 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 99 / 180
  106. 106. Rethinking ImageNet Pre-training [He+ 2018] pre-training fine-tuning は本当に必要? • COCO dataset の学習で • ランダム初期化から学習したモデル • ImageNet で事前学習したモデル を比較したところ, comparable な結果を得た K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 100 / 180
  107. 107. Taskonomy: Disentangling Task Transfer Learning [Zamir+ 2018] taskonomy (task taxonomy) • 26 種類の画像関連タスクを総当 たりして相性の良い元ドメイン · 目標ドメインの組を見つける • タスク間の関係 (転移可能性) を 有効ハイパーグラフ (taskonomy, 左図) として可視化 • 400 万枚の画像に対して全ての タスクに対応するアノテーショ ンをつけたデータセットを作成 し実施 K. Matsui (RIKEN AIP) Transfer Learning Survey Topics in Transfer Learning 101 / 180
  108. 108. Theory of Transfer Learning (Instance Transfer)
  109. 109. 定式化 • 教師なし転移 · インスタンス転移の状況を想定 • 目標ドメインでの期待リスク最小化がしたい: RT(h) = E(X,Y)∼PT(X,Y)[ℓ(h(X), Y)] → min • 目標ドメインにラベル情報がないため, 元ドメインのラベ ル付きデータを活用する • 主に 2 通りのアプローチ 1. 確率密度比に基づく評価 2. 確率分布の不一致度 (discrepancy) に基づく評価 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 102 / 180
  110. 110. 確率密度比に基づく方法: 重要度重み付き学習 i 転移仮定 • 共変量シフト: PT(Y | X) = PS(Y | X) • 絶対連続性: PT(X) ≪ PS(X) このとき, 目標ドメインの期待リスクは元ドメインの重み付き期待リスクと して書ける: RT(h) = E(X,Y)∼PT(X,Y)[ℓ(h(X), Y)] = ∫ ∫ (x,y) ℓ(h(x), y)PT(x, y)d(x, y) = ∫ ∫ (x,y) ℓ(h(x), y) PT(y | x) =PS(y|x) PT(x) PS(x) PS(x) d(x, y) = ∫ ∫ (x,y) ℓ(h(x), y) PS(y | x)PS(x) =PS(x,y) PT(x) PS(x) d(x, y) = ∫ ∫ (x,y) ℓ(h(x), y)PS(x, y) PT(x) PS(x) d(x, y) = E(X,Y)∼PS(X,Y) [ PT(X) PS(X) ℓ(h(X), Y) ] K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 103 / 180
  111. 111. 確率密度比に基づく方法: 重要度重み付き学習 ii r(X) = PT(X) PS(X) とおく RT(h) = E(X,Y)∼PS(X,Y) [r(X)ℓ(h(X), Y)] ≈ 1 NS NS∑ i=1 ˆr(xi)ℓ(h(xi), yi) 結局, RT(h) を最小にする仮説 h は以下の 2 ステップのアルゴリ ズムで推定できる (重要度重み付き学習 [Sugiyama+ (2012)]) Step 1 密度比関数 r(x) を元ドメインと目標ドメインのラ ベル無しデータから推定 Step 2 ˆr(x) で重み付けをした元ドメインのラベル付きデ ータで仮説 h を学習 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 104 / 180
  112. 112. 確率密度比に基づく方法: 重要度重み付き学習 iii • 重要度重み付き学習は目標ドメインに近い元ドメインのイ ンスタンスに大きな重みを与えて仮説を学習 • 密度比関数は, 両ドメインのラベル無しデータから一致推 定量が構成可能 [Kanamori+ (2012)] • RT の大きさは, 重要度重み付き経験誤差の大きさと, 重要 度重みの推定誤差の大きさに依存 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 105 / 180
  113. 113. 拡張: 変数選択 + 重要度重み付き学習 i [M+ (2019)] • カーネル密度比推定は常に全変数が要求される → 問題によってはデータ取得コストがネックになる • 予め密度比に寄与する変数を選択し, それのみを使いたい 方法 : adaptive scaling + L1 正則化付き ERM min ξ∈[0,1]d L(fξ) + η∥ξ∥1, ˆfξ(z) = ˆf(ξ ◦ z) • ˆf は f の一致推定量 (カーネル密度比推定などで推定) • 発想は adaptive lasso に近い • ˆf の推定時に power series kernel を使えば ˆf と ˆfξ は同一の RKHS の元になる • 適当な条件の下で変数選択の一致性を保証 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 106 / 180
  114. 114. 拡張: 変数選択 + 重要度重み付き学習 ii [M+ (2019)] 実験: 共変量シフトの下での判別問題 Table 5: Comparison of classification accuracy kernel NNG Lasso SFS adapt full no adapt pcas 0.830 (13/17) 0.830 (17/17) 0.830 (12/17) 0.830 0.773 ckd 0.981 (8/17) 0.981 (17/17) 0.981 (16/17) 0.981 0.943 ccancer 0.884 (4/27) 0.879 (19/27) 0.879 (22/27) 0.879 0.884 cnuclear 0.634 (60/71) 0.599 (62/71) 0.603 (37/71) 0.619 0.587 • 正判別率と変数選択の割合を比較 (提案法, Lasso, 前向き漸 次的選択, 変数選択なし, 補正なし) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 107 / 180
  115. 115. 拡張: 変数選択 + 重要度重み付き学習 iii [M+ (2019)] 全変数で推定した密度比 vs 変数選択後の密度比 提案法は判別精度を落とさず密度比推定の精度も保つ K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 108 / 180
  116. 116. 確率分布の不一致度に基づく方法 fT, fS をそれぞれ目標ドメイン, 元ドメインの真のラベル関数と する 目標リスクの典型的な上界の表現 RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS) • Disc : 元ドメインと目標ドメインの周辺分布の不一致度 • Diff : 元ドメインと目標ドメインのラベル関数の違い • 教師なし転移学習の場合, Diff を小さくする操作ができな い (目標ドメインのラベルがないため) • Disc をいかに小さく抑えられるかが RT を小さくするのに 本質的に重要 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 109 / 180
  117. 117. 確率分布の不一致度に基づく方法 i : H∆H-divergence • 2 値判別問題 • H∆H-divergence でドメインの不一致度を評価: dH∆H(DS, DT) = 2 sup h,h′ |PS(h(x) ̸= h′ (x)) − PT(h(x) ̸= h′ (x))| Theorem 2 (Ben-David+ (2010)) H を VC 次元 d の仮説空間とする. このとき任意の δ に対して 確率 1 − δ 以上で以下が成立 RPT (h, fT) ≤ RPS (h, fS) + 1 2 dH∆H(DS, DT) Disc +4 √ 2d log 2NT + log 2 δ NT + min h∈H RPT (h, fT) + RPS (h, fS) Diff K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 110 / 180
  118. 118. 確率分布の不一致度に基づく方法 ii : Wasserstein distance 準備: 最適輸送問題 • (Ω, d) : 距離空間 • P(Ω) : Ω 上の確率測度 2 つの確率測度 PS, PT ∈ P(Ω) に対して, 一方から他方への輸送 コスト最小化問題を考える (Monge-Kantorovich 問題) arg min γ ∫ Ω1×Ω2 d(x, x′ )dγ(x, y) s.t. PΩ1 #γ = PT, PΩ2 #γ = PS • γ : PT と PS のカップリング測度 • d : Ω × Ω → R+ : Ω 上の距離 (輸送コスト) • PΩi #γ : γ の射影 PΩi による押し出し K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 111 / 180
  119. 119. 確率分布の不一致度に基づく方法 ii : Wasserstein distance Definition 3 (Wasserstein 距離) W1(PT, PS) := inf γ∈ ∏ (PT,PS) ∫ Ω×Ω d(x, x′ )dγ(x, x′ ) ∏ (PT, PS) : PT, PS のカップリング測度の族 Theorem 3 (Kantrovich-Rubinstein 双対) W1(PT, PS) = sup f:1−Lipschitz EPT [f(x)] − EPS [f(x)] 特に, f が K-Lipschitz ならば EPT [f(x)] ≤ EPS [f(x)] + KW1(PT, PS) が成立 → RT(h) ≤ RS(h) + Wasserstein 距離 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 112 / 180
  120. 120. 確率分布の不一致度に基づく方法 ii : Wasserstein distance • 2 値判別 • 絶対値損失 ℓ(h(x) − y) = |h(x) − y| 転移仮定 • 共変量シフト: PT(Y | X) = PS(Y | X) Theorem 4 (Shen+ (2018)) h ∈ H : K-Lipschitz w.r.t. d に対して以下が成立: RT(h) ≤ RS(h) + 2KW1(PT, PS) + min h′ (RT(h′ ) + PS(h′ )) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 113 / 180
  121. 121. 既存の理論解析のまとめ ■ 密度比に基づいた方法 (✓) 理論評価がタイト (✓) 効率的なアルゴリズムがある (×) 共変量シフトの仮定がないと理論解析できない (×) 絶対連続性の仮定は応用ではしばしばみたされない → 仮定をみたすドメインを人手で選別する必要がある ■ 不一致度に基づいた方法 (✓) 絶対連続性の仮定がいらない (×) 共変量シフトの仮定がないと理論解析できない (×) 理論評価がタイトでない (PS = PT のとき上界と下界が一 致しない) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Instance Transfer) 114 / 180
  122. 122. Impossibility Theorems for Domain Adaptation
  123. 123. 再掲: 教師なし DA の汎化誤差バウンド 目標リスクの典型的な上界の表現 RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS) • Disc : 元ドメインと目標ドメインの周辺分布の不一致度 • Diff : 元ドメインと目標ドメインのラベル関数の違い 例 (Ben-David+ (2010)) H を VC 次元 d の仮説空間とする. このとき任意の δ に対して 確率 1 − δ 以上で以下が成立 RPT (h, fT) ≤ RPS (h, fS) + 1 2 dH∆H(DS, DT) Disc +4 √ 2d log 2NT + log 2 δ NT + min h∈H RPT (h, fT) + RPS (h, fS) Diff K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 115 / 180
  124. 124. 教師なしドメイン適応の必要条件 教師なし DA が成功するために必要な仮定は何か? Most Common Assumptions : • 共変量シフト PT(Y | X) = PS(Y | X) • 元ドメインと目標ドメインの入力の周辺分布の discrepancy が小さいこと Disc(PXT , PXS ) : small • 両方のドメインで誤差が小さくなるような共通の仮説が存 在すること λH = (Diff(fT, fS) =) minh∈H RS(h) + RT(h) : small これら 3 条件が理論的にも必要条件になっていることを示す → impossibility theorems K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 116 / 180
  125. 125. 準備 i Domain Adaptation Learner Definition 4 (Domain Adaptation Learner) A : ∞∪ m=1 ∞∪ n=1 (X × {0, 1})m × Xn → {0, 1}X • “元ドメインのラベルありデータと目標ドメインのラベル なしデータから仮説を学習する” という写像 K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 117 / 180
  126. 126. 準備 ii Learnability Definition 5 (Learnability) A (ε, δ, m, n)-learns PT from PS relative to H :⇐⇒ Pr S∼i.i.d(PS)m Tu∼i.i.d(PXT ) n [RT (A (S, Tu)) ≤ RT(H) + ε] ≥ 1 − δ • RT(H) = infh∈H RT(h) • S : 元ドメインのサイズ m のラベルありデータ • Tu : 目標ドメインのサイズ n のラベルなしデータ データの出方の確率分布に対して, A が学習した仮説の期待リスク ≤ H で達成可能な最小の期待リスク + ε が 1 − δ 以上の確率で成り立つこと K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 118 / 180
  127. 127. Necessity Theorem i Theorem 5 (H∆H が小さいことの必要性 (Ben-David+ (2010))) ある B ⊂ A に対して, 集合 {h−1 (1) ∩ B | h ∈ H} は 2 つ以上の部分集 合を持ち, かつそれらは集合の包含関係で全順序付けられていると する. このとき, 任意の ε 0 に対して, ある元ドメイン上の同時分布 P0 S と目標ドメイン上の同時分布 P0 T が存在して, 以下を満たす: 任意の domain adaptation learner A と任意の整数 m, n 0 に対し て, あるラベル関数 f : X → {0, 1} が存在して 1. λH ε 2. P0 S と P0 T は共変量シフト条件を満たす 3. 期待リスクが確率 1 2 以上で大きい: Pr S∼i.i.d(P0 S)m Tu∼i.i.d(P0 XT ) n [ RTf (A(S, Tu)) ≥ 1 2 ] ≥ 1 2 K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 119 / 180
  128. 128. Necessity Theorem ii Theorem 6 (λH が小さいことの必要性 (Ben-David+ (2010))) H を X 上の仮説集合で, VCdim(H) |X| とする. このとき, 任意の ε 0 に対して, ある元ドメイン上の同時分布 P0 S と目標ドメイン上の同時分布 P0 T が存在して, 以下を満たす: 任意の domain adaptation learner A と任意の整数 m, n 0 に対し て, あるラベル関数 f : X → {0, 1} が存在して 1. dH∆H(P0 XT , P0 XS ) ε 2. P0 S と P0 T は共変量シフト条件を満たす 3. 期待リスクが確率 1 2 以上で大きい: Pr S∼i.i.d(P0 S)m Tu∼i.i.d(P0 XT ) n [ RTf (A(S, Tu)) ≥ 1 2 ] ≥ 1 2 K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 120 / 180
  129. 129. Necessity Theorem iii 定理の解釈 共変量シフトの仮定があっても, • 周辺分布の間の discrepancy が小さいこと • ideal hypothesis が存在すること のいずれかが欠ければ, 高い確率で期待リスクが大きくなって しまう K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 121 / 180
  130. 130. Example [Ben-Davis+ (2010)] PS PT y = 1 y = 0 0 ξ 2ξ 3ξ 4ξ 5ξ 6ξ 7ξ 8ξ 9ξ 10ξ 11ξ • PS : {(2kξ, 1) | k ∈ N} 上の一様分布 (元ドメイン) • PT : {((2k + 1)ξ, 0) | k ∈ N} 上の一様分布 (目標ドメイン) • ξ ∈ (0, 1) は 2kξ, 2(k + 1)ξ ≤ 1 なる小さい数 (Fig : ξ = 2 23 ) • H = { ht(x) = { 1 x t 0 otherwise t ∈ [0, 1] } このとき, RT(H) = RS(H) = 0 で, 以下が成立: 1. PS, PT は共変量シフトを満たす 2. dH∆H(PT, PS) = ξ (discrepancy は小さい) 3. λH = 1 − ξ よって RT(h∗ S) ≥ 1 − ξ (目標リスクは大きい) K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 122 / 180
  131. 131. Hardness Results i 準備 1 Definition 6 (DA learnability をちょっと modify) • W = {(PXS , PXT , f)} : 元ドメイン, 目標ドメインの周辺分布とラベル関数の三組 • A : domain adaptation learner • S = {(xs i , f(xs i ))}, xs i ∼i.i.d PXS (元ドメインデータ) • Tu = {xt i}, xt i ∼i.i.d PXT (目標ドメインデータ) A (ε, δ, m, n)-solves domain adaptation for class W :⇐⇒ Pr [RT (A (S, Tu)) ≤ ε] ≥ 1 − δ, ∀(PXS , PXT , f) ∈ W class W のどんな教師なし DA の設定が来ても, A は高い確率で 目標リスクが小さい仮説を学習できる K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 123 / 180
  132. 132. Hardness Results ii 準備 2 Definition 7 (capacity of H to produce a zero-error classifier with margin γ) • X ⊂ Rd • DX : X 上の分布 • h : X → {0, 1} : 判別器 • Bγ(x) : 中心 x ∈ X, 半径 γ の ball h が DX に関して γ-margin の判別器 :⇐⇒ DX (Bγ(x)) 0, h(y) = h(z), ∀x ∈ X, ∀y, z ∈ Bγ(x) 同値な言い換え (h は DX の台上でリプシッツ): |h(y) − h(z)| ≤ 1 2γ ∥y − z∥, y, z ∈ supp(DX ) K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 124 / 180
  133. 133. Hardness Results iii Theorem 7 ((Ben-DavidUrner (2012))) 任意の有限集合 X と ε + δ 1 2 を満たす任意の ε, δ 0 に対 して以下を仮定: m + n √ (1 − 2(ε + δ))|X|. このとき, • dH∆H(PXT , PXS ) = 0 • min h∈H RT(h, f) = 0 (h ≡ 1, h ≡ 0 ∈ H) • CB(PXS , PXT ) := inf B∈B,PXT (B)̸=0 PXS (B) PXT (B) ≥ 1 2 , B ⊂ 2X であるような教師なし DA のクラス W に対して, (PS, PT, f) ∈ W を (ε, δ, m, n)-solve するような DA learner A は存在しない K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 125 / 180
  134. 134. Hardness Results iv 定理に関する Remark 仮定の解釈 (DA をするのに有利な設定) • Theorem 7では, 目標タスクに対して, “目標ドメインのラベ ルありデータが 1 点でもあれば誤差ゼロの仮説が学習可 能” という強い仮定 • また, 元ドメインと目標ドメインは discrepancy 及び密度 比どちらで図っても “似ている” ようなクラス Hardness の回避 [Ben-DavidUrner (2012)] Theorem 7で • X = [0, 1]d • ラベル関数 f : λ-リプシッツ のとき, m + n ≥ √ (1 − 2(ε + δ))(1 − λ)d が成り立てば hardness result の例外となる K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 126 / 180
  135. 135. Usefulness of Unlabeled Data 目標ドメインのラベルなしデータは DA においてどの程度役に たっているのか? Theorem 8 ((Ben-DavidUrner (2012))) X = [0, 1]d , VCdim(H) +∞ とし, DA のクラス W を以下で定める: W = { (PS, PT, f) RT(H) = 0, CB(PXS , PXT ) ≥ 0 } . このとき, ∃c 1, ∀ε 0, δ 0, (PS, PT, f) ∈ W, 元ドメインと目標ド メインのサンプルサイズをそれぞれ m ≥ c [ VCdim(H) + log 1 δ CB(PXS , PXT )(1 − ε)ε log ( VCdim(H) CB(PXS , PXT )(1 − ε)ε )] n ≥ 1 ε ( 2|X| log 3|X| δ ) ととると, Pr[RT(A(S, Tu)) ≤ ε] ≥ 1 − δ が成立つ A が存在する K. Matsui (RIKEN AIP) Transfer Learning Survey Impossibility Theorems for Domain Adaptation 127 / 180
  136. 136. Theory of Transfer Learning (Parameter Transfer)
  137. 137. 定式化 Learning bound for parameter transfer learning [Kumagai (2016)] ■ 目標ドメインの設定 • パラメトリック特徴写像が存在 ψθ : XT → Rm, θ ∈ Θ, Θ ⊂ ノルム空間 with ∥ · ∥ • 仮説 hT ,θ,w(x) := ⟨w, ψθ(x)⟩ • 仮説集合 HT = {⟨w, ψθ(x)⟩ | (θ, w) ∈ Θ × WT } ■ 元ドメインの設定 • 生成分布または仮説集合がパラメトリック: • 生成分布の場合 PS = {PS,θ,w | (θ, w) ∈ Θ × WS} • 仮説集合の場合 HS = {hS,θ,w | (θ, w) ∈ Θ × WS} • 部分パラメータ空間 Θ が目標ドメインと共有されている • 有効なパラメータ (θ∗ S, w∗ S) が存在 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 128 / 180
  138. 138. パラメータ転移学習のアルゴリズム 元ドメインの有効パラメータ θ∗ S を用いたときの目標ドメイン の最適パラメータ: w∗ T = arg min w∈WT RT (θ∗ S, w) target risk パラメータ転移アルゴリズム Step 1: θ∗ S の推定量 ˆθN を元ドメインで学習 (N はサンプルサイズ) Step 2: ˆθN を目標ドメインへ転移し以下の ERM を解く ˆwN,n = arg min w∈WT 1 n n∑ j=1 ℓ(yj, ⟨w, ψˆθN (xj)⟩) + ρr(w) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 129 / 180
  139. 139. パラメータ転移学習の汎化誤差上界 i Definition 8 (局所安定性) ψθ が局所安定 :⇔ ∃εθ : XT → R0, ∃Lψ 0 s.t. ∥θ − θ′ ∥ ≤ εθ(x) ⇒ ∥ψθ(x) − ψθ′ (x)∥2 ≤ Lψ∥θ − θ′ ∥ θ に関する局所リプシッツ性に相当. εθ(x) を permissible radius of perturbation (PRP) と呼ぶ. Definition 9 (転移学習可能性) ψθ が, 推定量 ˆθN に関して確率 1 − δN,n でパラメータ転移学 習可能 :⇔ Pr(∥ˆθN − θ∗ S∥ ≤ εθ∗ S (x1:n)) ≥ 1 − δN,n ここで, x1:n = {x1, ..., xn} に対して εθ(x1:n)) = minj=1,...,n εθ(xj) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 130 / 180
  140. 140. パラメータ転移学習の汎化誤差上界 ii 仮定 • パラメトリック特徴写像 ψθ は局所安定かつ有界 • 推定量 ˆθN は確率 1 − δN,n でパラメータ転移学習可能 • 損失関数 ℓ は L-リプシッツ, 凸, 有界 • 正則化項 r は 1-強凸, r(0) = 0 Theorem 9 (汎化誤差上界 [Kumagai (2016)]) RT (ˆθN, ˆwN,n) − RT (θ∗ S, w∗ T ) ≤ C √ n + C′ ˆθN − θ∗ S + C′′ n1/4 √ ˆθN − θ∗ S with probability 1 − (δ + 2δN,n). C, C′, C′′ は正定数. K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 131 / 180
  141. 141. パラメータ転移学習の汎化誤差上界 iii 定理の解釈 RT (ˆθN, ˆwN,n) − RT (θ∗ S, w∗ T ) ≤ c    ˆθN − θ∗ S √ ρ + 1 √ nρ + θN − θ∗ S 1/2 ρ3/4 + 1 nρ + ρ    特に • 正則化パラメータを ρ = max{n−1/3, ∥ˆθN − θ∗ S∥2/7} とおき, • ∥ˆθN − θ∗ S∥ ≈ 1 N が成り立つとき, RT (ˆθN, ˆwN,n) − RT (θ∗ S, w∗ T ) ≤ c max{n−1/3 , N−1/7 } が成立 → 元ドメインのサンプルサイズを N ≥ n7/3 程度取れば汎化誤 差は小さい K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 132 / 180
  142. 142. 自己教示学習への応用 Dictionary Learning Sparse Coding 入力のスパース表現を学習するための辞書を元ドメインで教 師なし学習し, 目標ドメインへ転移 Dictionary Learning min D,z1,...,zn n∑ i=1 1 2 ∥xi − Dzi∥2 + λ∥zi∥1 Sparse Coding ϕD(x) := arg max z∈Rm 1 2 ∥x − Dz∥2 + λ∥z∥1 • D = [d1, ..., dm] ∈ Rd×m, ∥dj∥ = 1 : 辞書 • z : x のスパース表現 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 133 / 180
  143. 143. Sparse Coding の局所安定性 i Definition 10 (k-margin) 辞書 D の x における k-margin Mk(D, x) := max I⊂[m],|I|=m−k min j∈I { λ − ⟨ dj, x − DφD(x) ⟩ } Definition 11 (µ-incoherence) 辞書 D が µ-incoherent ⇔ ⟨ di, dj ⟩ ≤ µ/ √ d (i ̸= j) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 134 / 180
  144. 144. Sparse Coding の局所安定性 ii ∥D∥1,2 := maxi∈[m] ∥di∥ Theorem 10 (Sparse Coding Stability) 辞書 D, ˜D が, ∥D − ˜D∥1,2 ≤ λ かつ D は µ-incoherent で以下を 満たすと仮定 ∥D − ˜D∥1,2 ≤ Mk,D(x)2λ 64 max{1, ∥x∥}4 =:ϵk,D(x) : PRP このとき, 以下が成立 φD(x) − φ˜D(x) 2 ≤ 4∥x∥2 √ k (1 − µk/ √ d)λ ∥D − ˜D∥1,2 K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 135 / 180
  145. 145. Dictionary Learning の転移学習可能性 i スパースモデルに対する仮定 1. (Model) ある辞書 D∗ が存在して, 全ての x はスパース表現 z とノイズ ξ によって以下の形で独立に生成される x = D∗ z + ξ 2. (Dictionary) 辞書 D は µ-incoherent 3. (Representation) k-sparse (i.e. ∥z∥0 ≤ k) かつ定数 C が存 在して, zi ̸= 0 な i に対して |zi| ≥ C 4. (Noise) ξ = (ξ1, ..., ξd) は各成分 ξi が独立な σ√ d -sub-Gaussian i.e. ∀t ∈ R, E[exp(tξi)] ≤ exp( (σ/ √ d)2ξ2 i 2 ) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 136 / 180
  146. 146. Dictionary Learning の転移学習可能性 ii Theorem 11 (Margin bound) 0 t 1 とし, δt,λ を以下で定義 δt,λ := 2σ (1 − t) √ dλ exp ( − (1 − t)2 dλ2 8σ2 ) + 2σm √ dλ exp ( − dλ2 8σ2 ) + 4σk C √ d(1 − µk/ √ d) exp ( − C2 d(1 − µk/ √ d) 8σ2 ) + 8σ(d − k) √ dλ exp ( − dλ2 32σ2 ) このとき, d ≥ {( 1 + 6 (1−t) ) µk }2 かつ λ = d−τ (1/4 ≤ τ ≤ 1/2) ⇒ Pr[Mk,D∗(x) ≥ tλ] ≥ 1 − δt,λ が成立. ⇒ ϵk,D(x) := Mk,D(x)2λ 64 max{1,∥x∥}4 ≥ t2λ3 64 max{1,∥x∥}4 = Θ ( d−3τ ) w.p. 1 − δt,λ (1/4 ≤ τ ≤ 1/2) K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 137 / 180
  147. 147. Dictionary Learning の転移学習可能性 iii ある Dictionary Learning algorithm が存在して Pr [ ∥ˆDN − D∗ ∥1,2 ≤ O(d−3τ ) ] ≥ 1 − δN が成り立つとき, ¯δ = δN + nδt,λ ととれば, dictionary learning の 転移学習可能性が成り立つ: Pr [ ∥ˆDN − D∗ ∥1,2 ≤ εk,D∗ (x1:n) ] ≥ 1 − ¯δ Remark 1 上記の仮定を満たすような DL algorithm は存在 [Arora+ (JMLR 2015)] 以上より, dictionary learning に対しても汎化誤差上界が保証 される K. Matsui (RIKEN AIP) Transfer Learning Survey Theory of Transfer Learning (Parameter Transfer) 138 / 180
  148. 148. Immunity : An Optimality of Domain Adaptation
  149. 149. Optimal Domain Adaptation [Scott (2019)] i 2 値判別における domain adaptation これまでの domain adaptation 評価指標として損失関数 (特に 0-1 損失) の期待値で表される ものに依存 → これが DA を難しくしている要因では? e.g. 教師なし DA では, 0-1 損失の下ではラベルノイズに対し て強い仮定 (共変量シフトなど) が必要 Question (共変量シフトのような) feature dependent label noise (FDLN) の下で, より簡易かつ有効な転移学習が可能か? K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 139 / 180
  150. 150. Optimal Domain Adaptation [Scott (2019)] ii Contribution • controlled discovery rate (CDR) を評価指標とした場合, • covariate-shift with posterior-drift (CSPD) というラベルノ イズの下で 元ドメインの最適なモデル = 目標ドメインの最適なモデル を証明 (immunity) → 特別な adaptation をすることなく元ドメインで学習した モデルを目標ドメインで使うことが可能 特に以下の 2 つの設定を考察 • inductive setting : 学習者が元ドメインの同時分布にのみ アクセスできる • semi-supervised setting : 教師なし DA と同じ K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 140 / 180
  151. 151. Covariate-Shift with Posterior-Drift i Definition 12 (Covariate Shift) PrP(Y = 1 | X = x) ηP = PrQ(Y = 1 | X = x) ηQ → ラベル分布が元ドメインと目標ドメインで共通 (入力の周 辺分布は違っていても良い) Definition 13 (Posterior Drift) • PX = QX (入力の周辺分布が共通) かつ • ∃ϕ : 狭義単調増加関数 s.t. ηP(x) = ϕ(ηQ(x)), ∀x ∈ X → 入力分布はドメイン間で共通, ラベル分布は up to 単調変 換で一致 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 141 / 180
  152. 152. Covariate-Shift with Posterior-Drift ii Definition 14 (Covariate-Shift with Posterior-Drift) ∃ϕ : 狭義単調増加関数 s.t. ηP(x) = ϕ(ηQ(x)), ∀x ∈ X → ラベル分布は up to 単調変換で一致 • Posterior drift から周辺分布が共通という条件を外したも の • 教師なし DA において, ドメイン間の類似度のモデリング として “仮定なし”と “共変量シフト”の中間を埋めるよう な設定 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 142 / 180
  153. 153. Immunity i Notation • OPTD(Q) : inductive setting において, 評価指標 D の下で 最適な判別モデル • OPTD(ηQ, QX) : semi-supervised setting において, 評価指 標 D の下で最適な判別モデル Definition 15 (Immunity) 評価指標 D が immune であるとは, 1. (for inductive setting) OPTD(Q) = OPTD(P) 2. (for semi-supervised setting) OPTD(ηQ, QX) = OPTD(ηP, QX) K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 143 / 180
  154. 154. Immunity ii 直感的な解釈: 一般に, ある評価指標 D がある DA 問題のクラスに対して immune :⇐⇒ D の下で最適な判別モデルが元ドメインと目標ドメイン で共通 practical には, immunity とは P ̸= Q であることを忘れて学習 を行ってしまっても(評価指標 D の下では)OK という性質 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 144 / 180
  155. 155. Immunity iii 様々な DA の設定と対応する immunity 1. symmetric feature-independent label noise • probability of error criterion が immune [Jabbari 2010] 2. symmetric feature-dependent label noise • probability of error criterion が immune [Menon+ 2018] 3. feature-dependent annotator noise (PD を含む) • AUC が immune [Menon+ 2018] 4. asymmetric label-dependent (but feature-independent) label noise • balanced error rate (BER) が immune [Menon+ 2015] • BER は label-dependent label noise に対して immune な唯 一の指標 5. PU learning • Neyman-Pearson criterion が immune [Blanchard+ 2010] K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 145 / 180
  156. 156. Generalized Neyman-Pearson Criterion i Notation • g : X → [0, 1], g(x) = Pr(Y = 1 | X = x) : 確率的判別器 • Power: BQ(g) := EQ1 [g(X)] = ∫ g(x)q1(x)dµ(x) • 真のラベルが 1 のときに予測ラベルが 1 である確率 • 1 − β error, TPR, 感度, recall などとも呼ばれる • Size: AQ(g) := EQ0 [g(X)] = ∫ g(x)q0(x)dµ(x) • 真のラベルが 0 のときに予測ラベルが 1 である確率 • α error, FPR, 1 - 特異度などとも呼ばれる ここで, Qy = Pr[X | Y = y] (y = 0, 1), qy はその密度関数 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 146 / 180
  157. 157. Generalized Neyman-Pearson Criterion ii Definition 16 (Generalized Neyman-Pearson Criterion) 確率的判別器 g∗ がパラメータ 0 ≤ θ0 θ1 ≤ 1 および 0 α 1 の GNP criterion の下で最適 :⇔ g∗ が以下の最適化問題の解 max g θ1BQ(g) + (1 − θ1) AQ(g) s.t. θ0BQ(g) + (1 − θ0) AQ(g) ≤ α • θ1 = 1, θ0 = 0 の場合を conventional な Neyman-Pearson (NP) criterion とよぶ K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 147 / 180
  158. 158. Generalized Neyman-Pearson Criterion iii Theorem 12 (g∗ の特徴づけ) ある tQ,α ∈ [0, 1], qQ,α ∈ [0, 1) が存在して, g∗ (x) = gQ,α(x) :=    1, ηQ(x) tQ,α qQ,α, ηQ(x) = tQ,α 0, ηQ(x) tQ,α • これは, 最適な判別器が尤度比で与えられることと等価 • 証明の方針 : Neyman-Pearson の補題 (単一の仮説検定では尤度比検定 が最強力検定となる) を, 帰無仮説と対立仮説に対応する尤 度がそれぞれ contaminate されたバージョンに拡張 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 148 / 180
  159. 159. Generalized Neyman-Pearson Criterion iv Definition 17 (controlled discovery rate, CDR) 確率的判別機 g∗ が CDR criterion の下で最適 :⇐⇒ g∗ が GNP criterion において θ1 = 1, θ0 = πQ = PrQ[Y = 1] (目標ドメインのラベル prior) と置いた場合の最適化問題 max g BQ(g) s.t. DQ(g) := QX(g(X) = 1) ≤ α の最適解である K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 149 / 180
  160. 160. Key Insight CDR criterion の下での DA の目標 P と QX の情報のみから目標ドメインでラベルが 1 の確率が tQ,α 以上である入力集合 GQ,α = {x | ηQ(x) ≥ tQ,α} を推定する → 教師なし DA が実現できる 実際には, • いくつかの仮定の下で GP,Q,α = {x | ηP(x) ≥ tP,Q,α} は一致推定可能 (Theorem 4 in [Scott (2019)]) • CSPD の仮定下では GQ,α = GP,Q,α が成立 (すなわち左辺も一致推定可能) ∗ 理論的な結果で, どれくらい実用性があるかは未知 K. Matsui (RIKEN AIP) Transfer Learning Survey Immunity : An Optimality of Domain Adaptation 150 / 180
  161. 161. Life-long (Continual) Learning
  162. 162. 通常の転移学習における困難 £ 破滅的忘却 • 元ドメインの性能は無視されるため, 転移後のモデルの元ドメイ ンでの性能が著しく低下している可能性が高い → 後ろ向き学習が困難 £ シングルタスク • 複数の目標タスクに同時に適応できない → タスクごとに再学習が必要 £ 負転移 • 質の大きくことなるドメイン間での転移はしない場合よりも性 能を悪化させる可能性がある → 良い元ドメインを適切に選択する必要 K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 151 / 180
  163. 163. Life-long Learning に要請される性質 仮定: 各ドメインは逐次的に与えられ, 学習済みドメインのデータは 捨てる £ 破滅的忘却の回避 • 過去タスクの性能も担保する (次のオンライン学習可能性とも 関係) £ オンライン学習可能 • 逐次的に与えられるタスクを学習する能力 (繰り返し転移学習) £ タスク間の知識共有 • 知識の積み上げ (現在のタスクを効率よく, 過去タスクも初見時 より効率よく) 目標 : 上記の性質をもつ単一のモデルを学習する K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 152 / 180
  164. 164. Life-long Learning のデータ生成例 Split MNIST Permuted MNIST •  •  (10 2 ) •  •  •  (10 10 ) •  ( ) K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 153 / 180
  165. 165. Life-long Learning におけるタスク 1. Incremental Task Learning タスク ID が既知のときクラスラベルを当てる 2. Incremental Domain Learning タスク ID が未知のときクラスラベルを当てる 3. Incremental Class Learning タスク ID が未知のときタスク ID とクラスラベルを当てる ——– ∗ 実際は (task-wise な) データの真のラベルとタスク内のラベル (エイリア ス) は異なるため上の分類は若干不正確 ∗ 正確には, 1, 2 で当てるのはエイリアス, 3 で当てるのは真のクラスラベル K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 154 / 180
  166. 166. Life-long Learning におけるタスク例 Split MNIST 1. Incremental Task Learning : Task 2 first class second class 2. Incremental Domain Learning : ( Task ) first class [0, 2, 4, 6, 8] second class [1, 3, 5, 7, 9] 3. Incremental Class Learning : 0 vs 1, 2 vs 3, 4 vs 5, 6 vs 7, 8 vs 9 K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 155 / 180
  167. 167. Life-long Learning へのアプローチ Continual Learning Methods Replay-based methods Rehearsal iCaRL [18] ER [44] SER [45] TEM [46] Pseudo Rehearsal DGR [14] PR [47] CCLUGM [48] LGM [49] Constrained GEM [50] A-GEM [8] GSS [43] Regularization-based methods Prior-focused EWC [28] IMM [29] SI [51] R-EWC [52] MAS [15] Riemannian Walk [16] Data-focused LwF [53] LFL [54] EBLL [11] DMC [55] Parameter isolation methods Fixed Network PackNet [56] PathNet [32] Piggyback [57] HAT [58] Dynamic Architectures PNN [59] Expert Gate [7] RCL [60] DAN [19] Fig : [De Lange + 2019] 1. Replay-based methods 過去タスクの学習データを利用 2. Regularization-based methods モデルに正則化 3. Parameter isolation methods タスクごとにモデルパラメータを個別に保持 K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 156 / 180
  168. 168. Replay-based Methods 例 £ Rehearsal • バッファに過去タスクのデータを保存し各タスクで使う • 生データをそのまま保存, 圧縮したデータを保存, など • 残したデータにモデルが過適合する傾向 £ Pseudo Rehearsal (Generative Replay) • 各タスクで予測モデルとは別にデータの生成モデルを学習 • GAN や VAE などの深層生成モデルが用いられる • あるタスクのデータと深層生成モデルからサンプリングし たデータから予測モデルと次の深層生成モデルを学習 £ Constrained • 過去タスクを阻害しないよう新規タスクに制約条件を課す K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 157 / 180
  169. 169. Regularization-based Methods £ Prior-focused • Elastic Weight Consolidation • L2 正則化項に Fisher 情報行列で重みを導入 • Synaptic Intelligence • L2 正則化項に独自の重みを導入 £ Data-focused • Learning without Forgetting • 損失関数に知識蒸留の項を加える • Deep Model Consolidation • Double distillation loss なる知識蒸留のための損失関数 を導入 K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 158 / 180
  170. 170. Parameter Isolation Methods £ Dynamic Architectures output2 output3output1 input h (2) 2 h (3) 2h (1) 2 h (1) 1 h (2) 1 h (3) 1 a a a a Task 1 Task 2 Task 3 Fig : [Rusu+ 2016] • Progressive Neural Networks • タスクごとに NN を学習 • 前のタスク NN の下層から次タ スクの NN へカスケード的 に結合 £ Fixed Network Fig : [Fernando+ 2017] • PathNet • モデルの学習と同時にモジュー ル (畳込層など) を結ぶパスも 学習 • 学習が完了したら重みを固定 (次のタスクでは更新しない) K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 159 / 180
  171. 171. Experiments i Split MNIST Fig:[Hsu+ 2019] K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 160 / 180
  172. 172. Experiments ii Permuted MNIST Fig:[Hsu+ 2019] K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 161 / 180
  173. 173. Life-long Learning における Disentangled Representation i Life-Long Disentangled Representation [Achille+ (2018)] Fig : Achille+, NIPS2018 • 各クラスタが各シナリオにおけるデータ/環境に対応 • 各データ x は generative factors zn (座標のようなもの) の 組で表される • 異なるクラスタでいくつかの generative factor を共有 K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 162 / 180
  174. 174. Life-long Learning における Disentangled Representation ii Life-Long Disentangled Representation の学習 1 A CB Figure 1: A: Schematic representation of the life-long learning data distr corresponds to a cluster s. Data samples x constituting each cluster can be de (data generative factors zn). Different clusters may share some data generative C: ConContinSchematic of the “dreaming” feedback loop. We use a snapshot ( old, ✓old) to generate an imaginary batch of data xold for a previously experi the current environment, we ensure that the representation is still consistent o can reconstruct it (see red dashed lines). Recent state of the art approaches to unsupervised disentangled repre Generative Factor zn model architecture q (zs |xs )= as N(µ(x), (x)) + (1 as ) N(0, I) as : latent mask Model Assumption Objective Function LMDL( , ) = Ezs q (·|xs) [ log p (x|zs , s)] Reconstruction error + (|KL (q (zs |xs ) p(z)) Representation capacity C Target )2 Latent Mask as n = KL Exs batch [q (zs n|xs batch )] p (zn)Atypicality Score Latent Mask as n = 1, if n 0, otherwise β-VAE-like K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 163 / 180
  175. 175. Life-long Learning における Disentangled Representation iii Life-Long Disentangled Representation の学習 2 Environment s s = ˆs if Ezˆs log p xs batch |zˆs , ˆs Lˆs as = aˆs sr+1 otherwise ˆs = arg max s q (s|xs batch) (“Dreaming” feedback) Lpast( , ) = Ez,s ,x [D [q (z|x ) , q (z |x )] Encoder proximity + D [q (x|z, s ) , q (x |z, s )] Decoder proximity ] Overall Objective L( , ) = LMDL( , ) + Lpast( , ) K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 164 / 180
  176. 176. Life-long Learning における Disentangled Representation iv NatLab/EDE Cross-Domain Reconstructions OrigNatLabEDE Reconstructionsas OrigNatLabEDE Reconstructionsas B C Disentangled Entangled • VSAE (提案法, left) は 2 つのデータセットの “semantic homologies” (共通の generative factor) を見つけられる  e.g. サボテン → 赤いオブジェクト K. Matsui (RIKEN AIP) Transfer Learning Survey Life-long (Continual) Learning 165 / 180
  177. 177. Concluding Remarks
  178. 178. Concluding Remarks 引用 [Ng (NIPS 2016), Ruder (2017)] • 転移学習は深層学習の台頭以降, 発展著しい • しかし, 問題設定やアプローチなどが散在している状況 • 様々な問題設定を統一的に扱えるフレームワーク (理論) の整備が望まれる K. Matsui (RIKEN AIP) Transfer Learning Survey Concluding Remarks 166 / 180
  179. 179. 転移学習の俯瞰的な文献 · ウェブサイト i [1] Pan, S. J. Yang, Q (2010). A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 22(10), 1345-1359. [2] 神嶌敏弘 (2010). 転移学習. 人工知能学会誌, 25(4), 572-580. [3] 神嶌敏弘 (2009). 転移学習のサーベイ. データマイニングと統計数理研 究会 (第 9 回). http://www.kamishima.net/archive/2009-tr-jsai_dmsm1-PR.pdf • 深層学習以前の転移学習のサーベイ • しかし重要なコンセプトがコンパクトに纏まっており, 現在でも 非常に有用 [4] Ruder, S. (2017). Transfer Learning - Machine Learning’s Next Frontier. http://ruder.io/transfer-learning/index.html • 最近の転移学習と周辺分野のサーベイ • 特に深層学習における転移学習の諸手法と文献がよく纏まってい る K. Matsui (RIKEN AIP) Transfer Learning Survey Concluding Remarks 167 / 180

×