Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Recent Advances on Transfer Learning and Related Topics

4,666 views

Published on

転移学習の基本概念と関連分野,重要なトピックに関するサーベイ

Published in: Engineering
  • Be the first to comment

Recent Advances on Transfer Learning and Related Topics

  1. 1. Recent Advances on Transfer Learning and Related Topics Kota Matsui February 7, 2019 RIKEN AIP Data-Driven Biomedical Science Team
  2. 2. Acknowledgement 理研 AIP 非凸学習理論チームの熊谷亘氏に感謝申し上げます. 本発表の内容は, 熊谷氏との共同研究, ディスカッションに 大きく依存しています. また, 内容をチェックし, 重要なコメントを多数頂いた東京大学 の幡谷龍一郎氏に感謝の意を表します. 1
  3. 3. Table of contents 1. Introduction 2. Foundations of Transfer Learning 3. Related Fields of Transfer Learning 4. Topics in Transfer Learning 5. Theory of Transfer Learning (Instance Transfer) 6. Theory of Transfer Learning (Parameter Transfer) 7. Concluding Remarks 2
  4. 4. Introduction
  5. 5. 機械学習 / Machine Learning 人工知能研究の一分野として “Field of study that gives computers the ability to learn without being explicitly programmed” [Samuel (1959)]. データ科学の一分野として “The term machine learning refers to the automated detection of meaningful patterns in data” [Shalev-Shwartz&Ben-David (2014)]. ’ • “Machine Learning” という名称 A. Samuel “Some Studies in Machine Learning Using the Game of Checkers”, 1959. で初出 • generalization (汎化, 学習した能力 が未知の事例に対しても上手く働く こと) の考え方も論じられている     3
  6. 6. 医学研究における機械学習 現代医学の問題点 (鎌谷, 第 3 回統計 · 機械学習若手シンポ資料より抜粋) • データ量(科学的知見, 文献, 利用可能データ)の増大 • 1 年間に約 30 倍に増加 (SIP AI ホスピタルによる高度診断・治 療システム研究開発計画, 2018) • TCGA では2.5PB の癌オミクスデータが保持. 同様のデータ ベースが複数存在 (Diogo M. Camacho et al., 2018) • 医療従事者の不足、地域偏在、診療科偏在、過重労働 • 医師不足, 平均寿命の増加, 受診回数多, 病床数 · 入院日数多 • ヒューマンエラー 人工知能 (≒ 機械学習) の導入でこれらの問題の緩和 (究極的に は解決) を目指す 4
  7. 7. 医学研究における機械学習: 画像診断 Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs Varun Gulshan, PhD; Lily Peng, MD, PhD; Marc Coram, PhD; Martin C. Stumpe, PhD; Derek Wu, BS; Arunachalam Narayanaswamy, PhD; Subhashini Venugopalan, MS; Kasumi Widner, MS; Tom Madams, MEng; Jorge Cuadros, OD, PhD; Ramasamy Kim, OD, DNB; Rajiv Raman, MS, DNB; Philip C. Nelson, BS; Jessica L. Mega, MD, MPH; Dale R. Webster, PhD JAMA | Original Investigation | INNOVATIONS IN HEALTH CARE DELIVERY Figure 2. Validation Set Performance for Referable Diabetic Retinopathy 100 80 60 40 20 0 0 70 80 85 95 90 75 0 5 10 15 20 25 30 100806040 Sensitivity,% 1 – Specificity, % 20 EyePACS-1: AUC, 99.1%; 95% CI, 98.8%-99.3%A 100 High-sensitivity operating point High-specificity operating point 100 80 60 40 20 0 0 70 80 85 95 90 75 0 5 10 15 20 25 30 100806040 Sensitivity,% 1 – Specificity, % 20 Messidor-2: AUC, 99.0%; 95% CI, 98.6%-99.5%B 100 High-specificity operating point High-sensitivity operating point Performance of the algorithm (black curve) and ophthalmologists (colored circles) for the presence of referable diabetic retinopathy (moderate or worse diabetic retinopathy or referable diabetic macular edema) on A, EyePACS-1 (8788 fully gradable images) and B, Messidor-2 (1745 fully gradable images). The black diamonds on the graph correspond to the sensitivity and specificity of the algorithm at the high-sensitivity and high-specificity operating points. In A, for the high-sensitivity operating point, specificity was 93.4% (95% CI, 92.8%-94.0%) and sensitivity was 97.5% (95% CI, 95.8%-98.7%); for the high-specificity operating point, specificity was 98.1% (95% CI, 97.8%-98.5%) and sensitivity was 90.3% (95% CI, 87.5%-92.7%). In B, for the high-sensitivity operating point, specificity was 93.9% (95% CI, 92.4%-95.3%) and sensitivity was 96.1% (95% CI, 92.4%-98.3%); for the high-specificity operating point, specificity was 98.5% (95% CI, 97.7%-99.1%) and sensitivity was 87.0% (95% CI, 81.1%-91.0%). There were 8 ophthalmologists who graded EyePACS-1 and 7 ophthalmologists who graded Messidor-2. AUC indicates area under the receiver operating characteristic curve. Ghost cytometry Sadao Ota1,2,3 *†, Ryoichi Horisaki3,4 *, Yoko Kawamura1,2 *, Masashi Ugawa1 *, Issei Sato1,2,3,5 , Kazuki Hashimoto2,6 , Ryosuke Kamesawa1,2 , Kotaro Setoyama1 , Satoko Yamaguchi2 , Katsuhito Fujiu2 , Kayo Waki2 , Hiroyuki Noji2,7 Ghost imaging is a technique used to produce an object’s image without using a spatially resolving detector. Here we develop a technique we term “ghost cytometry,” an image-free ultrafast fluorescence “imaging” cytometry based on a single-pixel detector. Spatial information obtained from the motion of cells relative to a static randomly patterned optical structure is compressively converted into signals that arrive sequentially at a single-pixel detector. Combinatorial use of the temporal waveform with the intensity distribution of the random pattern allows us to computationally reconstruct cell morphology. More importantly, we show that applying machine-learning methods directly on the compressed waveforms without image reconstruction enables efficient image-free morphology-based cytometry. Despite a compact and inexpensive instrumentation, image-free ghost cytometry achieves accurate and high-throughput cell classification and selective sorting on the basis of cell morphology without a specific biomarker, both of which have been challenging to accomplish using conventional flow cytometers. 図1 機械学習が駆動する形態に基づく高速細胞分離:ゴーストサイトメトリー ゴーストサイトメトリーは、新規動的ゴーストイメージング法により細胞の形態情 報(Visual Information)を光圧縮信号として計測し、「画像化 せずに」直接機械学習で超高速リアルタイム判別(Image-free Clas sification)することによって、目的の細胞の選択的な高速分離を実現し た。(©2018 SS.LAB, Creative Commons license CC BY-ND) 5
  8. 8. 医学研究における機械学習: ゲノム · オミクスデータ解析 §2.研究実施の概要 •  •  •  Oura & M & Matsui IBC2016 + JST CREST MDS bi-clustering 6
  9. 9. 機械学習における様々なタスク x y x x → y x 7
  10. 10. 機械学習の定式化 i • 入力空間 X ⊂ Rd • 出力空間 Y • Y = {0, 1} : 2 値判別 • Y = R : 回帰 • (Y = {c} (1 点集合) : 教師なし学習) • データ生成分布 P = P(X, Y) • 仮説 h : X → Y 入出力関係を予測する • 損失関数 ℓ • 0-1 損失 (判別) : ℓ(ˆy, y) = 1[ˆy ̸= y] = { 1 if y ̸= ˆy 0 otherwise • 二乗損失 (回帰) : ℓ(ˆy, y) = |ˆy − y|2 • (再構成損失 (教師なし学習) : ∥ˆx − x∥2 ) 8
  11. 11. 機械学習の定式化 ii Definition 1 (期待リスク) データ (X, Y) の従う分布 P の下での仮説 h の期待リスクは R(h) := E(X,Y)∼P[ℓ(h(X), Y)] 期待リスクを最小にする仮説 h を見つけることが (教師付き) 機械学習の目的 実際には, 分布 P には触れないのでサンプル近似 E(X,Y)∼P[ℓ(h(X), Y)] ≈ 1 N N∑ i=1 ℓ(h(xi), yi) を最小にする h を探す 9
  12. 12. 転移学習の定式化 i Definition 2 (ドメイン) • Z : abstract な集合 • PZ : Z 上の確率分布 の組 (Z, PZ) をドメイン と呼ぶ Ex • Z = X, PZ = PX (教師なし学習) • Z = X × Y, PZ = PX×Y (教師付き学習) 特に (以降 Z = X × Y を想定して) • (ZS, PS) を元ドメイン (source domain) と呼び • (ZT, PT) を目標ドメイン (target domain) と呼ぶ 10
  13. 13. 転移学習の定式化 ii 転移学習の目標 元ドメイン (ZS, PS) での学習を通して目標ドメイン (ZT, PT) に おける期待リスク RT(h) を最小化する. Ex (判別問題) (ZT, µT) で高い判別性能を示す判別関数 h を見つ ける {(xS i , yS i )}NS i=1 data ∈ XS × YS −−−−−→ training ˆh = arg min h 1 NS NS∑ i=1 ℓ(h(xS i ), yS i ) −−→ test 1[ˆh(xT j ) = yT j ], xT j ∈ XT 11
  14. 14. 伝統的な機械学習と転移学習の関係 伝統的な機械学習は, 転移学習の特別な場合に相当: 元ドメイン = 目標ドメイン. すなわち, ZS = ZT and PS = PT Ex (2 値判別問題) • P & N ∼ PXS×{0,1} (元) • U ∼ PXS (目標) • ラベル無しの目標データを 正しく判別する境界はラベ ルありの元データから学習 できる. 実際にはこの仮定が成り立たない問題がいくらでもある 12
  15. 15. 元ドメインと目標ドメインが異なる例 i サンプル空間がドメイン間で異なる XS ̸= XT 13
  16. 16. 元ドメインと目標ドメインが異なる例 ii データの分布がドメイン間で異なる PS ̸= PT Training Data (source domain) Hospital A Hospital B Hospital C Training Prediction Model Apply Hospital D (target domain) •  Multi-center prognostic analysis Ø  source : 3 different hospitals Ø  target : a hospital •  Task : to learn a prediction model in S that performs well in T •  Probability distribution of covariates of the patients can differ among hospitals A Transfer Learning Method for Multi-Center Prognostic Prediction Analysis [Matsui+ 2018] 14
  17. 17. 転移学習の必要性 異なるドメインのデータや知見を統合して取り扱うための 方法論 • 目標ドメイン, 元ドメインともにデータが少数のとき → 各ドメインのデータを統合して活用できる • 医学研究などの small data な領域で威力を発揮 • 目標ドメインは小データだが元ドメインにデータが大量に あるとき → 各ドメインで要約統計量を学習しておき, それを別のド メインで活用できる • 生データを保持しなくて良いのでストレージやメモリの節 約になる • プライバシーの観点からもメリットがある? 15
  18. 18. Foundations of Transfer Learning
  19. 19. 転移学習 i 定性的な定義 [NIPS’05 workshop] 目標タスクの効果的な仮説を効率的に見つけ出すために, 一 つ以上の別のタスクで学習された知識を適用する問題 数学的な定式化 (再掲) ZS ̸= ZT あるいは PS ̸= PT である場合に, 目標ドメインの期待 リスク RT(h) を最小にするような仮説 h を見つける 引用: Pan&Yang (2010) figure 1 16
  20. 20. 転移学習 ii • 様々な関連分野がある • domain adaptation (transfer learning の別称) • self-taught learning [Raina+ (ICML 2007)] • multi-task learning [Caruana (Machine Learning 1997)] • meta-learning [Brazdil+ (2008), Vanschoren (arXiv 2018)] • learning to learn [Thrun&Pratt (1998)]... • 最近では深層学習への応用により注目度が増大 • pre-training [Bengio+ (NIPS 2007), Erhan+ (JMLR 2010)] • fine-tuning [Girshick+ (CVPR2014)] • few-shot learning [Palatucci+ (NIPS2009), Fu+ (IEEE SPM 2018)] • representation learning [Hinton (1986), Zhuang+ (IJCAI 2015)]... • 一方で非常に多くの設定 (転移仮定) があり, 各設定に対し て個別に手法が考察されている状況 • distribution shift [Sugiyama+ (2012), Courty+ (2017)] • heterogeneous transfer learning [Daume III (ACM 2007), Duan+ (ICML 2012)]... 17
  21. 21. 転移学習の分類 • Pan&Yang (2010) や神嶌 (2009) では各ドメインのラベルの有無で分類 • 上記文献では, 以下のように少し呼称が異なる • 元: ラベル有, 目標: ラベル無 → トランスダクティブ転移学習 • 元: ラベル無, 目標: ラベル無 → 教師なし転移学習 • 最近では右上の設定が “教師なし転移学習” と呼ばれる 18
  22. 22. 教師付き転移学習 i • 元ドメイン, 目標ドメインそれぞれでラベル付きデータが 利用可能 → ただし, 目標ドメインのラベル付きデータは元ドメイン のそれよりも非常に少数と想定 • 共変量とラベルの同時分布がドメイン間で異なる: PS(X, Y) ̸= PT(X, Y) • 同時分布のずれを補正しながら目標ドメインの経験リスク を最小にする仮説 h を探す 19
  23. 23. 教師付き転移学習 ii : TrAdaBoost アンサンブル学習である AdaBoost を転移学習のために改 良 [Dai+ (ICML 2007)] • 両ドメインのラベル付きデータから弱学習器を学習 • 初期の重みは両ドメインのデータに等しく与える • 誤差の大きい目標データは重みを大きくし, 誤差の大きい 元データは重みを小さくする wt+1 i =    wt iβ |lossi| t for target data wt iβ −|lossi| t for source data • 学習の前半の弱学習器は捨て, 後半のものだけ使って分類 器を構成する hf(x) =    1 if ∏N t=⌈N/2⌉ β −ht(x) t ≥ ∏N t=⌈N/2⌉ β −1/2 t 0 otherwise 20
  24. 24. 教師なし転移学習 • transfer learning や domain adaptation 研究の主流の設定 • 元ドメインではラベル付きデータ, 目標ドメインではラベ ル無しデータのみが利用可能な場合 • 目標ドメインで学習ができないため, 直接目標リスクを最 小化する仮説を探索できない • 目標ドメインのラベル情報がないため, 元ドメインのラベ ル付きデータを有効利用するためには何らかの仮定が必要 (転移仮定, 詳細は後述) • 共変量シフト [Shimodaira (2000)] PT(Y | X) = PS(Y | X) • ターゲットシフト [Redko+ (2018)] PT(X | Y) = PS(X | Y) • 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (NIPS2016)] 21
  25. 25. 自己教示学習 • 元ドメインではラベル無しデータのみが, 目標ドメインではラベル付き データが利用可能な場合 • 元ドメインで教師なし特徴抽出を行い, 目標ドメインの教師付き学習に 援用 Supervised Classification Semi-supervised Learning Transfer Learning Self-taught Learning 22
  26. 26. 転移学習の基本的な問題 1. What to transfer (何を転移するか) • instance transfer (データそのものを転移) • feature transfer (抽出した特徴を転移) • parameter transfer (学習したモデルや特徴抽出器を転移) 2. When to transfer (いつ転移するか) • 転移学習が成功するのは元ドメインと目標ドメインが似て いるとき • 例: covariate-shift [Shimodaira 2000] PrS[y | x] = PrT[y | x] • 負転移 (転移によって目標ドメインの性能が低下) 3. How to transfer (どう転移するか, 具体的なアルゴリズム) • 例: 重要度重み付き学習 [Sugiyama+ 2012] • 例: 最適輸送によるドメイン適応 [Courty+ 2017] 23
  27. 27. What to Transfer : Instance Transfer 元ドメインのデータを目標ドメインのデータとして学習に 用いる 例: 重要度重み付き学習, 最適輸送に基づくドメイン適応 • homogeneous な状況を想定 (ドメイン間で標本空間は共通) 24
  28. 28. What to Transfer : Feature Transfer 元ドメインと目標ドメインで共通の特徴を抽出し学習に用いる 例: Augmented features [Duan+ (ICML 2012)] • heterogeneous な状況を想定 (ドメイン間で標本空間が異なる) 25
  29. 29. What to Transfer : Parameter Transfer i 元ドメインで学習したモデルや特徴抽出器のパラメータを目標 ドメインで用いる 例: fine-tuning … 1000 … 20 Fine-tuning L∇ ( )iiL yx , • あるデータセットで予め学習した NN の出力層を目標データで再学習 • 出力層の手前までのネットワークのパラメータは固定 → ただしこの定義にはいくつか流派? がある模様 (次ページ) 26
  30. 30. What to Transfer : Parameter Transfer ii 引用:[Li&Hoiem (2016)] Figure 1 • [Li&Hoiem (2016)] では出力層手前までも再学習するものを fine-tuning と呼んでいる (元ドメインの学習結果を warm-start とする) • 出力層手前までを固定するものは feature extraction と呼ばれている 27
  31. 31. When to Transfer : Discrepancy i 何らかの指標で元ドメインと目標ドメインが “似ている” とき 転移を実施 例: ドメインの確率分布の不一致度 (discrepancy) • discrepancy が小さいとき, 目標ドメインのデータは元ドメインとよく 似た生成メカニズムを持っていると考えられる • 様々な discrepancy が定義されている • H∆H divergence [Ben-David+ (2010)] • Wasserstein distance [Courty+ (2017)] • source-guided discrepancy [Kuroki+ (AAAI 2019)] 28
  32. 32. When to Transfer : Discrepancy ii Integral Probability Metrics (IPM) [Sriperumbudur+ (2012)] DiscG(PT, PS) := sup g∈G |ET[g] − ES[g]| • PT, PS はそれぞれ元ドメイン, 目標ドメインの確率分布, g はテスト関数 • Wasserstein metric, total variation, kernel MMD, source-guided discrepancy などを含む統一的な discrepancy の定式化になっている • M = supx∈X,g∈G g(x) とする. このとき, 確率 1 − δ 以上で以下のサンプ ル近似バウンドが成立 |DiscG(PT, PS) − DiscG(ˆPT, ˆPS)| ≤ 2ℜT,nT (G) + 2ℜS,nS (G) + M √ 18 log 4 δ ( 1 √ nT + 1 √ nS ) • ℜT,nT (G), ℜS,nS (G) はそれぞれ目標ドメイン, 元ドメインにおける G のラデマッハ複雑度 • nT, nS は各ドメインのサンプルサイズ → 転移学習の理論解析時に非常に有用 29
  33. 33. When to Transfer : 転移仮定 i ドメインの “類似” をより積極的にモデリングする 例 i: 共変量シフト [Shimodaira (2000)] • 元ドメインと目標ドメインでラベル付けルールが共通 PS(Y | X) = PT(Y | X) • 重要度重み付き学習で効果的に “転移学習” が可能 30
  34. 34. When to Transfer : 転移仮定 ii ドメインの “類似” をより積極的にモデリングする 例 ii: ターゲットシフト [Redko+ (2018)] 引用:[Redko+ (2018)] Figure 1 • 元ドメインと目標ドメインで入力分布が共通 PS(X | Y) = PT(X | Y) • ドメイン毎にクラスバランスが異なる状況を想定 • [Redko+ (2018)] では最適輸送を使って効果的な “転移学習” を実現 (注) ただし一般には最適輸送はこのような問題は苦手 (輸送前と後でラ ベルを保存するため) 31
  35. 35. When to Transfer : 転移仮定 iii ドメインの “類似” をより積極的にモデリングする 例 iii: 共通の隠れ空間の存在 [Duan+ (2012), Iwata&Yamada (2014)] Latent space D ' ^ / : , D W1 ↙ ↘ W2 D ' ^ / : , D ' ^ / : , Observed view 1 Observed view 2 ( ) • 適当な射影によって homogeneous な空間に落とせる (左) • 隠れ空間からの写像によって様々な表現が観測される (右) 32
  36. 36. When to Transfer : 負転移 ドメインバイアスとも呼ばれる (メタ学習の文脈) • シナリオ 2 における目標タスクの性能が, シナリオ 1 の性 能に劣るとき, 負転移 (negative transfer) という 1. 目標ドメインのみで学習したモデルを目標タスクで用いる 2. 転移学習によって学習したモデルを目標タスクで用いる • 元ドメインと目標ドメインが乖離しているほど負転移が発 生しやすい 1.0 0.2 0.4 0.6 0.8 0.0 1.0 0.2 0.4 0.6 0.8 0.0 AUC AUC The number of target training casesThe number of target training cases (a) (b) source only transfer target only source only transfer target only 33
  37. 37. Related Fields of Transfer Learning
  38. 38. Multi-Task Learning 複数の類似タスクを各タスクの情報を共有しながら同時学習 引用: [Ruder (2017)] Figure 12 • NN の場合, ネットワークの構造を工夫してタスク間でパラ メータを共有する (上図) • 非 NN の場合, 各タスクのパラメータが近くなるような正 則化をかける (下式 3 項目): min θ1,...,θT 1 2 T∑ t=1 n∑ i=1 (fθt (xi) − yi)2 loss + 1 2 T∑ t=1 λt∥θt∥2 inner−task + 1 4 T∑ t,t′=1 γt,t′ ∥θt − θt′ ∥2 inter−task 34
  39. 39. Meta-Learning i •  •  例 • stacked generalization • Model-Agnostic Meta-Learning (MAML) 35
  40. 40. Meta-Learning ii : Stacked Generalization •  •  •  • 様々なアルゴリズムで仮説を学習し, その出力を入力とする上位の仮説 をさらに学習 • kaggle 等のコンペで強力なアプローチとして普及 36
  41. 41. Meta-Learning iii : Model-Agnostic Meta-Learning (MAML) 引用: [Finn + (ICML 2017)] Figure 1 • モデルパラメータ θ を勾配法の更新則によって異なるタスクに適応さ せる: θ′ i ← θ − α∇θLTi (fθ) ここで Ti は目標タスク, fθ はモデル, L は損失関数 • メタ最適化によって, タスクの出現の仕方に関して SGD で適切なパラメ ータを学習: θ ← θ − β∇θ ∑ Ti∼p(T) LTi (fθ′ i ) 少ない更新回数で新たなタスクに適応できるようにパラメータを学習 37
  42. 42. Learning to Learn i 多くの文献でlearning to learn = メタ学習 とされている 人間の • “あるタスクに対する能力を別の新規タスクに汎化する” 能力 • “汎化のために必要な経験 · 例 · 反復回数などを学習する” 能力 を計算機上で実現したい 38
  43. 43. Learning to Learn ii Learning to learn by gradient descent by gradient descent [Andrychowicz+ (NIPS 2016)] Optimizee Optimizer t-2 t-1 t m m m + + + ft-1 ftft-2 ∇t-2 ∇t-1 ∇t ht-2 ht-1 ht ht+1 gt-1 gt θt-2 θt-1 θt θt+1 gt-2 引用: [Andrychowicz+ (NIPS 2016)] Figure. 2 • DNN の optimizer (SGD, RMSprop, ADAM...) の更新則を学習 • パラメータ ϕ で optimizer をパラメトリックモデリング: θt+1 = θt + gt(∇f(θt), ϕ) • ϕ に関する損失関数を最小化: L(ϕ) = Ef [f (θ∗ (f, ϕ))] 39
  44. 44. Few-shot Learning i 引用: [HariharanGirshick (ICCV 2017)] Figure. 1 • 興味あるタスク (目標ドメイン) のラベル付きデータが少数 (few) • one-shot : ラベル付きデータが 1 例のみ • zero-shot : ラベル付きデータ無し • 特に Zero-shot の場合は訓練時に見たことのないラベルをもつテスト データを扱う. ラベルそのものは観測できないが, ラベルについての補 助情報が学習可能という設定 40
  45. 45. Few-shot Learning ii Matching Networks [Vinyals+ (NIPS 2016)] 引用: [Vinyals+ (NIPS 2016)] Figure. 1 • one-shot learning において, 元ドメインデータ S = {(xi, yi)} が与えら れたとき目標データ x のラベル y の予測分布を NN で学習 P(y|x, S) = k∑ i=1 a (x, xi) yi • ニューラル機械翻訳の文脈での単語アラインメントモデルに対応 cf [Bahdanau+ (ICLR 2015)] 3.1 節 41
  46. 46. Representation Learning i 転移学習としての表現学習 output y1 output y3output y2 引用: [Bengio+ (2013)] Fig. 1 • ドメイン不変な特徴を獲得する • オートエンコーダや敵対的学習 (後述) などが良く用いられる 42
  47. 47. Representation Learning ii Transfer Learning with Deep Autoencoders [Zhuang+ (IJCAI 2015)] 引用: [Zhuang+ (IJCAI 2015)] Fig. 1 • オートエンコーダによる教師付き表現学習 min Err(x, ˆx) reconstruction error +α (KL(PS||PT) + KL(PT||PS)) discrepancy +β ℓ(yS; θ, ξS) softmax loss +γReg • 元ドメインと目標ドメインで encoding 層と decoding 層の重みを共有 43
  48. 48. Meta-Reinforcement Learning i 過去のタスクの知見を使って新たな強化学習タスクを高速に 解く. • 学習者はタスク分布 P(T ) を持っていて, そこからのサンプ リングができるという設定 • 同じタスク分布からサンプリングされた新しいタスクに対 しては高速に適応する • 最近の meta-RL では特に, タスク = マルコフ決定過程 (MDP) としている アプローチ 方策を事前学習しておき, few-shot で現在のタスクに適応させ る [Wang+ (2016), Finn + (ICML 2017)] 44
  49. 49. Meta-Reinforcement Learning ii Model-Agnostic Meta-Learning (MAML) [Finn+ (ICML 2017)] • MAML を RL に適用 • 損失関数として期待リワードを取る: LTi (fθ) = −Ext,at∼fϕ,qτi [ H∑ t=1 Ri (xt, at) ] • fθ : 方策関数 • Ri : タスク Ti におけるリワード関数 • 勾配法でパラメータ θ を最適化 (ただし期待リワードは一 般に微分不可能なので方策勾配を取る) 45
  50. 50. Topics in Transfer Learning
  51. 51. Feature Augmentation i 元ドメインと目標ドメインの特徴ベクトルを統合して学習する Frustratingly Easy Domain Adaptation [Daumé (ACL 2007)] • 教師付き転移学習の方法 • 入力ベクトルを, ドメイン不変, 元ドメイン固有, 目標ドメ イン固有の 3 パートに対応するベクトルに変換: xS → ψS = (xS, xS, 0) xT → ψT = (xT, 0, xT) • ψS, ψT は同一次元のベクトルなので, 後は統合して教師付 き学習 46
  52. 52. Feature Augmentation ii Learning with Augmented Features [Duan+ (ICML 2012)] • Frustratingly Easy method + 共通空間への射影 xS → ψS = (PxS, xS, 0) xT → ψT = (QxT, 0, xT) P, Q は射影行列 • SVM のモデルパラメータと射影行列を同時に学習: min P,Q min w,b,ξi,ξi 1 2 ∥w∥2 + C ( ns∑ i=1 ξs i + nt∑ i=1 ξt i ) s.t. ys i ( w⊤ψs ( xs i ) + b ) ≥ 1 − ξs i , ξs i ≥ 0 yt i ( w⊤ψt ( xt i ) + b ) ≥ 1 − ξt i , ξt i ≥ 0 ∥P∥2 F ≤ λp, ∥Q∥2 F ≤ λq ∥ · ∥F は行列のフロベニウスノルム 47
  53. 53. Pseudo Labeling for Target Data i 教師なし転移学習において, 目標ドメインのラベル無しデータに擬似ラベル をつけて学習をすることで目標タスクの性能向上を図る • Self-training [Chen+ (NIPS 2011)] • Co-training [Chen+ (NIPS 2011)] • Tri-training [Saito+ (ICML 2017)] 疑似ラベル学習とエントロピー正則化の等価性 [Lee+ (ICML workshop 2013)] L = 1 n n∑ i=1 ℓ (yi, h(xi; θ)) loss for labeled data +α(t) 1 n′ n′ ∑ j=1 ℓ ( y′ j , h(x′ j ; θ) ) loss for unlabeled data C(θ, λ) = n∑ i=1 log P (yi | xi; θ) + λ 1 n′ n′ ∑ j=1 P ( y = 1 | x′ j , θ ) log P ( y = 1 | x′ j , θ ) entropy regularization 上段: 疑似ラベル学習の目的関数, 下段: エントロピー正則化付き学習の目的 関数. 各項が対応関係にある. 48
  54. 54. Pseudo Labeling for Target Data ii Asymmetric Tri-training [Saito+ (ICML 2017)] 引用: [Saito+ (ICML 2017)] Figure 12 49
  55. 55. Domain Selection i DS1 = {{(xS1 i , yS1 i )} nS1 i=1 , PS1 } DS2 = {{(xS2 i , yS2 i )} nS2 i=1 , PS2 } DSK = {{(xSK i , ySK i )} nSK i=1 , PSK } DT = {{xT i }nT i=1, PT } • 複数の元ドメインから目標タスクに寄与するものを選択したい • ドメイン間の不一致度や目標ドメインのタスク性能を指標に選択 50
  56. 56. Domain Selection ii 不一致度と相補性に基づく元ドメイン選択 [Bhatt+ (IJCAI 2016)] T S1 S2 S3 S4 Disc(T, S1) ≤ Disc(T, S2) ≤ Disc(T, S3) ≤ Disc(T, S4) 1. 元ドメインを目標ドメインとの不一致度の大きさでランキング 2. 上位から, 既に選ばれたドメインと相補的になるように次を選択: 上図の例では S1 → S3 → S4 (S2 は選択しない) 51
  57. 57. Knowledge Distillation i 学習済みモデル (予測性能高, 複雑度高) の性能をより規模が小 さく学習しやすいモデルに継承させたい アイデア 元ドメインタスクのモデルパラメータを記憶して転移する (パラメータ転移) 必要はなく, 入出力関係が記憶されていれ ば良い • 定式化 [Hinton+ (2015), Kimura+ (BMVC 2018)] : min fT λ1 N N∑ i=1 ℓ1(yi, fT(xi)) + λ2 N N∑ i=1 ℓ2(fS(xi), fT(xi)) • fS は学習済みモデル, fT は目標モデル • 第 1 項は目標モデルに対する通常の損失 • 第 2 項は学習済みモデルの予測と目標モデルの予測を近づけるた めの損失 52
  58. 58. Knowledge Distillation ii Dark Knowledge An example of hard and soft targets 0 1 0 0 .9 .1 .05 .3 .2 .005 original hard targets output of geometric ensemble softened output of ensemble dog dog cat cow cat car 10 −910 −6 Softened outputs reveal the dark knowledge in the ensemble. cow car dog catcow car 引用 [Hinton+ (2014)] 53
  59. 59. Knowledge Distillation iii Born-Again Neurak Networks (BANs) Born-Again Neurak Networks [Furlanello+ (ICML 2018)] 引用:[Furlanello+ (ICML 2018)] Figure 1 • 教師モデルと全く同じ構造の生徒モデルを複数学習しアンサンブルす ることで教師モデルを上回る性能のモデルが学習可能 • BANs の学習問題: シーケンシャルに以下の output matching を解く min θk L(f(x, arg min θk−1 L(y, f(x, θk−1))), f(x, θk)) • BANs Ensemble: 学習したモデルのアンサンブルで予測 ˆfk (x) = 1 k k∑ i=1 f(x, θi) 54
  60. 60. Catastrophic Forgetting i ニューラルネットが新規タスクを学習すると, 以前学習したタ スクの情報を忘れてしまう現象 [McCloskeyCohen (1989)] → 以前のタスクに対するパフォーマンスが低下 Example 1 (fine-tuning) 目標ドメインで出力層の再学習を行うとき, 誤差逆伝播法に よって元ドメインで学習したパラメータが破壊されてしまう … 1000 … 20 Fine-tuning L∇ ( )iiL yx , 55
  61. 61. Catastrophic Forgetting ii 対策 • Learning without forgetting [LiHoiem (2018)] • タスク間で共通のパラメータ θS • 元タスク固有のパラメータ θo • 目標タスク固有のパラメータ θn を用意して, 以下の最適化問題を解く (蒸留を使った定式化) min θS,θo,θn λo Lold(Yold, ˆYold) loss for old task + Lnew(Ynew, ˆYnew) loss for new task + R(θS, θo, θn) regularization • Elastic weight consolidation [Kirkpatrick+ (2017)] L(θ) = LB(θ) + i λ 2 Fi θi − θ∗ A,i 2 θ • 両タスクで error が小さくなるようなパ ラメータ空間の領域に入るように正則化 • 通常の L2 正則化に情報行列で重み付け 56
  62. 62. Domain Adversarial Training [Ganin+ (JMLR 2016)] i ptrue(X) pz(z) G(z; θg) pg(X) D(x; θd) xo xf PS(X) PT (X) D(x; θd) xS xT G(·; θE) φS φT • 敵対的学習 (左図) をドメイン適応に応用 (右図) • ドメイン不変な特徴表現の学習が目的 57
  63. 63. Domain Adversarial Training [Ganin+ (JMLR 2016)] ii 引用:[Ganin+ (JMLR2016)] Figure 1 • 入力データを特徴抽出器に噛ませ, クラスラベルの識別器 (通常の識別 器, 上段) とドメインラベルの識別器 (下段) にそれぞれ入力 • ドメイン識別器の学習は gradient に負定数をかけ逆伝播する gradient reversal layer を導入することで実現 58
  64. 64. Domain Separation Networks [Bousmalis+ (NIPS 2016)] i 引用 [Bousmalis+ (NIPS 2016)] Figure 1 • ドメインの “違い” をネットワークに学習させる • private encoder でドメイン固有の特徴を学習し, shared encoder でド メイン横断的な特徴を学習する 59
  65. 65. Domain Separation Networks [Bousmalis+ (NIPS 2016)] ii 定式化 : 4 つの損失関数の重み付き和を最小化 min L = Ltask + αLrecon + βLdiff + γLsim • 第 1 項は判別誤差 (負の対数尤度) Ltask = − ∑ i yS i log ˆyS i • 第 2 項は元の特徴と変換後の特徴の再構築誤差 Lrecon = ∑ i ℓ(xS i , ˆx S i ) + ∑ j ℓ(xT j , ˆx T j ), ℓ(x, ˆx) = 1 k ∥x − ˆx∥2 − 1 k2 ((x − ˆx)⊤ 1)2 • 第 3 項はドメイン共有の特徴とドメイン固有の特徴を直交方向に学習 させる Ldiff = Hs⊤ c Hs p 2 F + Ht⊤ c Ht p 2 F • 第 4 項はドメインの類似性に関する誤差 e.g. 交差エントロピー Lsim = ∑ di log ˆdi + (1 − di) log ( 1 − ˆdi ) 60
  66. 66. BERT [Devlin+ (2018)] Bidirectional Encoder Representations from Transformers 引用:[Devlin+ (2018)] Figure 13 • NLP における言語モデルの pre-training • BooksCorpus (800M words) + Eng. Wikipedia (2500M words) をコーパス として使用 • fine-tuning によって様々なタスクで高い性能を発揮 61
  67. 67. Rethinking ImageNet Pre-training [He+ (2018)] pre-training fine-tuning は本当に必要? 引用:[He+ (2018)] Figure 35 • COCO dataset の学習で • ランダム初期化から学習したモデル • ImageNet で事前学習したモデル を比較したところ, comparable な結果を得た 62
  68. 68. Taskonomy: Disentangling Task Transfer Learning [Zamir+ (2018)] taskonomy (task taxonomy) 引用:[Zamir+ (2018)] Figure 1 • 26 種類の画像関連タスクを総当 たりして相性の良い元ドメイン · 目標ドメインの組を見つける • タスク間の関係 (転移可能性) を 有効ハイパーグラフ (taskonomy, 左図) として可視化 • 400 万枚の画像に対して全ての タスクに対応するアノテーショ ンをつけたデータセットを作成 し実施 63
  69. 69. Theory of Transfer Learning (Instance Transfer)
  70. 70. 定式化 • 教師なし転移 · インスタンス転移の状況を想定 • 目標ドメインでの期待リスク最小化がしたい: RT(h) = E(X,Y)∼PT(X,Y)[ℓ(h(X), Y)] → min • 目標ドメインにラベル情報がないため, 元ドメインのラベ ル付きデータを活用する • 主に 2 通りのアプローチ 1. 確率密度比に基づく評価 2. 確率分布の不一致度 (discrepancy) に基づく評価 64
  71. 71. 確率密度比に基づく方法: 重要度重み付き学習 i 転移仮定 • 共変量シフト: PT(Y | X) = PS(Y | X) • 絶対連続性: PT(X) ≪ PS(X) このとき, 目標ドメインの期待リスクは元ドメインの重み付き期待リスクと して書ける: RT(h) = E(X,Y)∼PT(X,Y)[ℓ(h(X), Y)] = ∫ ∫ (x,y) ℓ(h(x), y)PT(x, y)d(x, y) = ∫ ∫ (x,y) ℓ(h(x), y) PT(y | x) =PS(y|x) PT(x) PS(x) PS(x) d(x, y) = ∫ ∫ (x,y) ℓ(h(x), y) PS(y | x)PS(x) =PS(x,y) PT(x) PS(x) d(x, y) = ∫ ∫ (x,y) ℓ(h(x), y)PS(x, y) PT(x) PS(x) d(x, y) = E(X,Y)∼PS(X,Y) [ PT(X) PS(X) ℓ(h(X), Y) ] 65
  72. 72. 確率密度比に基づく方法: 重要度重み付き学習 ii r(X) = PT(X) PS(X) とおく RT(h) = E(X,Y)∼PS(X,Y) [r(X)ℓ(h(X), Y)] ≈ 1 NS NS∑ i=1 ˆr(xi)ℓ(h(xi), yi) 結局, RT(h) を最小にする仮説 h は以下の 2 ステップのアルゴリ ズムで推定できる (重要度重み付き学習 [Sugiyama+ (2012)]) Step 1 密度比関数 r(x) を元ドメインと目標ドメインのラ ベル無しデータから推定 Step 2 ˆr(x) で重み付けをした元ドメインのラベル付きデ ータで仮説 h を学習 66
  73. 73. 確率密度比に基づく方法: 重要度重み付き学習 iii • 重要度重み付き学習は目標ドメインに近い元ドメインのイ ンスタンスに大きな重みを与えて仮説を学習 • 密度比関数は, 両ドメインのラベル無しデータから一致推 定量が構成可能 [Kanamori+ (2012)] • RT の大きさは, 重要度重み付き経験誤差の大きさと, 重要 度重みの推定誤差の大きさに依存 67
  74. 74. 確率分布の不一致度に基づく方法 fT, fS をそれぞれ目標ドメイン, 元ドメインの真のラベル関数と する 目標リスクの典型的な上界の表現 RT(h, fT) ≤ RS(h, fS) + Disc(PT, PS) + Diff(fT, fS) • Disc : 元ドメインと目標ドメインの周辺分布の不一致度 • Diff : 元ドメインと目標ドメインのラベル関数の違い • 教師なし転移学習の場合, Diff を小さくする操作ができな い (目標ドメインのラベルがないため) • Disc をいかに小さく抑えられるかが RT を小さくするのに 本質的に重要 68
  75. 75. 確率分布の不一致度に基づく方法 i : H∆H-divergence • 2 値判別問題 • H∆H-divergence でドメインの不一致度を評価: dH∆H(DS, DT) = 2 sup h,h′ |PS(h(x) ̸= h′ (x)) − PT(h(x) ̸= h′ (x))| Theorem 1 (Ben-David+ 2010) H を VC 次元 d の仮説空間とする. このとき任意の δ に対して 確率 1 − δ 以上で以下が成立 RPT (h, fT) ≤ RPS (h, fS) + 1 2 dH∆H(DS, DT) Disc +4 √ 2d log 2NT + log 2 δ NT + min h∈H RPT (h, fT) + RPS (h, fS) Diff 69
  76. 76. 確率分布の不一致度に基づく方法 ii : Wasserstein distance 準備: 最適輸送問題 • (Ω, d) : 距離空間 • P(Ω) : Ω 上の確率測度 2 つの確率測度 PS, PT ∈ P(Ω) に対して, 一方から他方への輸送 コスト最小化問題を考える (Monge-Kantorovich 問題) arg min γ ∫ Ω1×Ω2 d(x, x′ )dγ(x, y) s.t. PΩ1 #γ = PT, PΩ2 #γ = PS • γ : PT と PS のカップリング測度 • d : Ω × Ω → R+ : Ω 上の距離 (輸送コスト) • PΩi #γ : γ の射影 PΩi による押し出し 70
  77. 77. 確率分布の不一致度に基づく方法 ii : Wasserstein distance 準備: Wasserstein 距離 Definition 3 (Wasserstein 距離) W1(PT, PS) := inf γ∈ ∏ (PT,PS) ∫ Ω×Ω d(x, x′ )dγ(x, x′ ) ∏ (PT, PS) : PT, PS のカップリング測度の族 Theorem 2 (Kantrovich-Rubinstein 双対) W1(PT, PS) = sup f:1−Lipschitz EPT [f(x)] − EPS [f(x)] 特に, f が K-Lipschitz ならば EPT [f(x)] ≤ EPS [f(x)] + KW1(PT, PS) が成立 → RT(h) ≤ RS(h) + Wasserstein 距離 71
  78. 78. 確率分布の不一致度に基づく方法 ii : Wasserstein distance • 2 値判別 • 絶対値損失 ℓ(h(x) − y) = |h(x) − y| 転移仮定 • 共変量シフト: PT(Y | X) = PS(Y | X) Theorem 3 (Shen+ (AAAI2018)) h ∈ H : K-Lipschitz w.r.t. d に対して以下が成立: RT(h) ≤ RS(h) + 2KW1(PT, PS) + min h′ (RT(h′ ) + PS(h′ )) 72
  79. 79. 既存の理論解析のまとめ ■ 密度比に基づいた方法 (✓) 理論評価がタイト (✓) 効率的なアルゴリズムがある (×) 共変量シフトの仮定がないと理論解析できない (×) 絶対連続性の仮定は応用ではしばしばみたされない → 仮定をみたすドメインを人手で選別する必要がある ■ 不一致度に基づいた方法 (✓) 絶対連続性の仮定がいらない (×) 共変量シフトの仮定がないと理論解析できない (×) 理論評価がタイトでない (PS = PT のとき上界と下界が一 致しない) 73
  80. 80. Theory of Transfer Learning (Parameter Transfer)
  81. 81. 定式化 Learning bound for parameter transfer learning [Kumagai (NIPS 2016)] ■ 目標ドメインの設定 • パラメトリック特徴写像が存在 ψθ : XT → Rm, θ ∈ Θ, Θ ⊂ ノルム空間 with ∥ · ∥ • 仮説 hT ,θ,w(x) := ⟨w, ψθ(x)⟩ • 仮説集合 HT = {⟨w, ψθ(x)⟩ | (θ, w) ∈ Θ × WT } ■ 元ドメインの設定 • 生成分布または仮説集合がパラメトリック: • 生成分布の場合 PS = {PS,θ,w | (θ, w) ∈ Θ × WS} • 仮説集合の場合 HS = {hS,θ,w | (θ, w) ∈ Θ × WS} • 部分パラメータ空間 Θ が目標ドメインと共有されている • 有効なパラメータ (θ∗ S, w∗ S) が存在 74
  82. 82. パラメータ転移学習のアルゴリズム 元ドメインの有効パラメータ θ∗ S を用いたときの目標ドメイン の最適パラメータ: w∗ T = arg min w∈WT RT (θ∗ S, w) target risk パラメータ転移アルゴリズム Step 1: θ∗ S の推定量 ˆθN を元ドメインで学習 (N はサンプルサイズ) Step 2: ˆθN を目標ドメインへ転移し以下の ERM を解く ˆwN,n = arg min w∈WT 1 n n∑ j=1 ℓ(yj, ⟨w, ψˆθN (xj)⟩) + ρr(w) 75
  83. 83. パラメータ転移学習の汎化誤差上界 i Definition 4 (局所安定性) ψθ が局所安定 :⇔ ∃εθ : XT → R0, ∃Lψ 0 s.t. ∥θ − θ′ ∥ ≤ εθ(x) ⇒ ∥ψθ(x) − ψθ′ (x)∥2 ≤ Lψ∥θ − θ′ ∥ θ に関する局所リプシッツ性に相当. εθ(x) を permissible radius of perturbation (PRP) と呼ぶ. Definition 5 (転移学習可能性) ψθ が, 推定量 ˆθN に関して確率 1 − δN,n でパラメータ転移学習 可能 :⇔ Pr(∥ˆθN − θ∗ S∥ ≤ εθ∗ S (x1:n)) ≥ 1 − δN,n ここで, x1:n = {x1, ..., xn} に対して εθ(x1:n)) = minj=1,...,n εθ(xj) 76
  84. 84. パラメータ転移学習の汎化誤差上界 ii 仮定 • パラメトリック特徴写像 ψθ は局所安定かつ有界 • 推定量 ˆθN は確率 1 − δN,n でパラメータ転移学習可能 • 損失関数 ℓ は L-リプシッツ, 凸, 有界 • 正則化項 r は 1-強凸, r(0) = 0 Theorem 4 (汎化誤差上界 [Kumagai (NIPS 2016)]) RT (ˆθN, ˆwN,n) − RT (θ∗ S, w∗ T ) ≤ C √ n + C′ ˆθN − θ∗ S + C′′ n1/4 √ ˆθN − θ∗ S with probability 1 − (δ + 2δN,n). C, C′, C′′ は正定数. 77
  85. 85. パラメータ転移学習の汎化誤差上界 iii 定理の解釈 RT (ˆθN, ˆwN,n) − RT (θ∗ S, w∗ T ) ≤ c    ˆθN − θ∗ S √ ρ + 1 √ nρ + θN − θ∗ S 1/2 ρ3/4 + 1 nρ + ρ    特に • 正則化パラメータを ρ = max{n−1/3, ∥ˆθN − θ∗ S∥2/7} とおき, • ∥ˆθN − θ∗ S∥ ≈ 1 N が成り立つとき, RT (ˆθN, ˆwN,n) − RT (θ∗ S, w∗ T ) ≤ c max{n−1/3 , N−1/7 } が成立 → 元ドメインのサンプルサイズを N ≥ n7/3 程度取れば汎化誤 差は小さい 78
  86. 86. 自己教示学習への応用 Dictionary Learning Sparse Coding 入力のスパース表現を学習するための辞書を元ドメインで教 師なし学習し, 目標ドメインへ転移 Dictionary Learning min D,z1,...,zn n∑ i=1 1 2 ∥xi − Dzi∥2 + λ∥zi∥1 Sparse Coding ϕD(x) := arg max z∈Rm 1 2 ∥x − Dz∥2 + λ∥z∥1 • D = [d1, ..., dm] ∈ Rd×m, ∥dj∥ = 1 : 辞書 • z : x のスパース表現 79
  87. 87. Sparse Coding の局所安定性 i Definition 6 (k-margin) 辞書 D の x における k-margin Mk(D, x) := max I⊂[m],|I|=m−k min j∈I { λ − ⟨ dj, x − DφD(x) ⟩ } Definition 7 (µ-incoherence) 辞書 D が µ-incoherent ⇔ ⟨ di, dj ⟩ ≤ µ/ √ d (i ̸= j) 80
  88. 88. Sparse Coding の局所安定性 ii ∥D∥1,2 := maxi∈[m] ∥di∥ Theorem 5 (Sparse Coding Stability) 辞書 D, ˜D が, ∥D − ˜D∥1,2 ≤ λ かつ D は µ-incoherent で以下を 満たすと仮定 ∥D − ˜D∥1,2 ≤ Mk,D(x)2λ 64 max{1, ∥x∥}4 =:ϵk,D(x) : PRP このとき, 以下が成立 φD(x) − φ˜D(x) 2 ≤ 4∥x∥2 √ k (1 − µk/ √ d)λ ∥D − ˜D∥1,2 81
  89. 89. Dictionary Learning の転移学習可能性 i スパースモデルに対する仮定 1. (Model) ある辞書 D∗ が存在して, 全ての x はスパース表現 z とノイズ ξ によって以下の形で独立に生成される x = D∗ z + ξ 2. (Dictionary) 辞書 D は µ-incoherent 3. (Representation) k-sparse (i.e. ∥z∥0 ≤ k) かつ定数 C が存 在して, zi ̸= 0 な i に対して |zi| ≥ C 4. (Noise) ξ = (ξ1, ..., ξd) は各成分 ξi が独立な σ√ d -sub-Gaussian i.e. ∀t ∈ R, E[exp(tξi)] ≤ exp( (σ/ √ d)2ξ2 i 2 ) 82
  90. 90. Dictionary Learning の転移学習可能性 ii Theorem 6 (Margin bound) 0 t 1 とし, δt,λ を以下で定義 δt,λ := 2σ (1 − t) √ dλ exp ( − (1 − t)2 dλ2 8σ2 ) + 2σm √ dλ exp ( − dλ2 8σ2 ) + 4σk C √ d(1 − µk/ √ d) exp ( − C2 d(1 − µk/ √ d) 8σ2 ) + 8σ(d − k) √ dλ exp ( − dλ2 32σ2 ) このとき, d ≥ {( 1 + 6 (1−t) ) µk }2 かつ λ = d−τ (1/4 ≤ τ ≤ 1/2) ならば Pr[Mk,D∗(x) ≥ tλ] ≥ 1 − δt,λ が成立. ⇒ ϵk,D(x) := Mk,D(x)2λ 64 max{1,∥x∥}4 ≥ t2λ3 64 max{1,∥x∥}4 = Θ ( d−3τ ) w.p. 1 − δt,λ (1/4 ≤ τ ≤ 1/2) 83
  91. 91. Dictionary Learning の転移学習可能性 iii ある Dictionary Learning algorithm が存在して Pr [ ∥ˆDN − D∗ ∥1,2 ≤ O(d−3τ ) ] ≥ 1 − δN が成り立つとき, ¯δ = δN + nδt,λ ととれば, dictionary learning の 転移学習可能性が成り立つ: Pr [ ∥ˆDN − D∗ ∥1,2 ≤ εk,D∗ (x1:n) ] ≥ 1 − ¯δ Remark 1 上記の仮定を満たすような DL algorithm は存在 [Arora+ (JMLR 2015)] 以上より, dictionary learning に対しても汎化誤差上界が保証 される 84
  92. 92. Concluding Remarks
  93. 93. Concluding Remarks 引用 [Ng (NIPS 2016), Ruder (2017)] • 転移学習は深層学習の台頭以降, 発展著しい • しかし, 問題設定やアプローチなどが散在している状況 • 様々な問題設定を統一的に扱えるフレームワーク (理論) の整備が望まれる 85
  94. 94. 転移学習の俯瞰的な文献 · ウェブサイト i [1] Pan, S. J. Yang, Q (2010). A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 22(10), 1345-1359. [2] 神嶌敏弘 (2010). 転移学習. 人工知能学会誌, 25(4), 572-580. [3] 神嶌敏弘 (2009). 転移学習のサーベイ. データマイニングと統計数理研 究会 (第 9 回). http://www.kamishima.net/archive/2009-tr-jsai_dmsm1-PR.pdf • 深層学習以前の転移学習のサーベイ • しかし重要なコンセプトがコンパクトに纏まっており, 現在でも 非常に有用 [4] Ruder, S. (2017). Transfer Learning - Machine Learning’s Next Frontier. http://ruder.io/transfer-learning/index.html • 最近の転移学習と周辺分野のサーベイ • 特に深層学習における転移学習の諸手法と文献がよく纏まってい る 86
  95. 95. 転移学習の俯瞰的な文献 · ウェブサイト ii [5] Awesome Transfer Learning https://github.com/artix41/awesome-transfer-learning • GitHub リポジトリ • トピック毎の論文, データ・セットが纏められている [6] Browse state-of-the-art https://paperswithcode.com/sota • 機械学習関係の論文やタスク, データ・セット等を集めた纏めサ イト • Transfer Learning 関係では数百本の論文がタスク別に纏められて いる [7] Goodfellow, I., Bengio, Y., Courville, A., Bengio, Y. (2016). Deep learning (Vol. 1). Cambridge: MIT press. • 深層学習の本だが中で使われている転移学習の技術の解説あり 87
  96. 96. 転移学習の俯瞰的な文献 · ウェブサイト iii [8] Weng, L. (2018). Meta-Learning: Learning to Learn Fast https://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html • メタ学習の解説記事 [9] Fragkiadaki, K., Satakhutdinov, R. (2017). Deep Reinforcement Learning and Control https://katefvision.github.io • CMU での深層強化学習の講義シリーズ. transfer learning, learning to learn, few-shot learning などの回がある [10] Knagg, O. (2018). Advances in few-shot learning: a guided tour https://towardsdatascience.com/ advances-in-few-shot-learning-a-guided-tour-36bc10a68b77 • few-shot learning の解説記事 [11] Upadhyay, U. (2018). Knowledge Distillation https://medium.com/neural-machines/knowledge-distillation-dc241d7c2322 • 知識蒸留の解説記事 88
  97. 97. その他の参考文献 i References [1] Marcin Andrychowicz, Misha Denil, Sergio Gomez, Matthew W Hoffman, David Pfau, Tom Schaul, Brendan Shillingford, and Nando De Freitas. Learning to learn by gradient descent by gradient descent. In Advances in Neural Information Processing Systems, pages 3981–3989, 2016. [2] Sanjeev Arora, Rong Ge, Tengyu Ma, and Ankur Moitra. Simple, efficient, and neural algorithms for sparse coding. 2015. [3] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014. [4] Shai Ben-David, John Blitzer, Koby Crammer, Alex Kulesza, Fernando Pereira, and Jennifer Wortman Vaughan. A theory of learning from different domains. Machine learning, 79(1-2):151–175, 2010. [5] Yoshua Bengio, Samy Bengio, and Jocelyn Cloutier. Learning a synaptic learning rule. Université de Montréal, Département d’informatique et de recherche …, 1990. [6] Yoshua Bengio, Aaron Courville, and Pascal Vincent. Representation learning: A review and new perspectives. IEEE transactions on pattern analysis and machine intelligence, 35(8):1798–1828, 2013. [7] Yoshua Bengio, Pascal Lamblin, Dan Popovici, and Hugo Larochelle. Greedy layer-wise training of deep networks. In Advances in neural information processing systems, pages 153–160, 2007. [8] Himanshu S Bhatt, Arun Rajkumar, and Shourya Roy. Multi-source iterative adaptation for cross-domain classification. In IJCAI, pages 3691–3697, 2016. 89
  98. 98. その他の参考文献 ii [9] Karsten M Borgwardt, Arthur Gretton, Malte J Rasch, Hans-Peter Kriegel, Bernhard Schölkopf, and Alex J Smola. Integrating structured biological data by kernel maximum mean discrepancy. Bioinformatics, 22(14):e49–e57, 2006. [10] Konstantinos Bousmalis, George Trigeorgis, Nathan Silberman, Dilip Krishnan, and Dumitru Erhan. Domain separation networks. In Advances in Neural Information Processing Systems, pages 343–351, 2016. [11] Pavel Brazdil, Christophe Giraud Carrier, Carlos Soares, and Ricardo Vilalta. Metalearning: Applications to data mining. Springer Science Business Media, 2008. [12] Leo Breiman. Better subset regression using the nonnegative garrote. Technometrics, 37(4):373–384, 1995. [13] Eric Brochu, Vlad M Cora, and Nando De Freitas. A tutorial on bayesian optimization of expensive cost functions, with application to active user modeling and hierarchical reinforcement learning. arXiv preprint arXiv:1012.2599, 2010. [14] Rich Caruana. Multitask learning. Machine learning, 28(1):41–75, 1997. [15] Minmin Chen, Kilian Q Weinberger, and John Blitzer. Co-training for domain adaptation. In Advances in neural information processing systems, pages 2456–2464, 2011. [16] Zhiyuan Chen and Bing Liu. Lifelong machine learning. Synthesis Lectures on Artificial Intelligence and Machine Learning, 12(3):1–207, 2018. [17] Nicolas Courty, Rémi Flamary, and Mélanie Ducoffe. Learning wasserstein embeddings. arXiv preprint arXiv:1710.07457, 2017. [18] Nicolas Courty, Rémi Flamary, Amaury Habrard, and Alain Rakotomamonjy. Joint distribution optimal transportation for domain adaptation. In Advances in Neural Information Processing Systems, pages 3730–3739, 2017. 90
  99. 99. その他の参考文献 iii [19] Nicolas Courty, Rémi Flamary, Devis Tuia, and Alain Rakotomamonjy. Optimal transport for domain adaptation. IEEE transactions on pattern analysis and machine intelligence, 39(9):1853–1865, 2017. [20] Wenyuan Dai, Qiang Yang, Gui-Rong Xue, and Yong Yu. Boosting for transfer learning. In Machine Learning, Proceedings of the Twenty-Fourth International Conference (ICML 2007), Corvallis, Oregon, USA, June 20-24, 2007, pages 193–200, 2007. [21] Hal Daumé III. Frustratingly easy domain adaptation. arXiv preprint arXiv:0907.1815, 2009. [22] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. [23] Lixin Duan, Dong Xu, and Ivor Tsang. Learning with augmented features for heterogeneous domain adaptation. arXiv preprint arXiv:1206.4660, 2012. [24] Dumitru Erhan, Yoshua Bengio, Aaron Courville, Pierre-Antoine Manzagol, Pascal Vincent, and Samy Bengio. Why does unsupervised pre-training help deep learning? Journal of Machine Learning Research, 11(Feb):625–660, 2010. [25] Yanwei Fu, Tao Xiang, Yu-Gang Jiang, Xiangyang Xue, Leonid Sigal, and Shaogang Gong. Recent advances in zero-shot recognition: Toward data-efficient understanding of visual content. IEEE Signal Processing Magazine, 35(1):112–125, 2018. [26] Tommaso Furlanello, Zachary C Lipton, Michael Tschannen, Laurent Itti, and Anima Anandkumar. Born again neural networks. arXiv preprint arXiv:1805.04770, 2018. [27] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 580–587, 2014. 91
  100. 100. その他の参考文献 iv [28] Varun Gulshan, Lily Peng, Marc Coram, Martin C Stumpe, Derek Wu, Arunachalam Narayanaswamy, Subhashini Venugopalan, Kasumi Widner, Tom Madams, Jorge Cuadros, et al. Development and validation of a deep learning algorithm for detection of diabetic retinopathy in retinal fundus photographs. Jama, 316(22):2402–2410, 2016. [29] Abhishek Gupta, Benjamin Eysenbach, Chelsea Finn, and Sergey Levine. Unsupervised meta-learning for reinforcement learning. arXiv preprint arXiv:1806.04640, 2018. [30] Bharath Hariharan and Ross Girshick. Low-shot visual recognition by shrinking and hallucinating features. In Proc. of IEEE Int. Conf. on Computer Vision (ICCV), Venice, Italy, 2017. [31] Kaiming He, Ross Girshick, and Piotr Dollár. Rethinking imagenet pre-training. arXiv preprint arXiv:1811.08883, 2018. [32] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Dark knowledge. Presented as the keynote in BayLearn, 2, 2014. [33] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015. [34] Geoffrey E Hinton et al. Learning distributed representations of concepts. In Proceedings of the eighth annual conference of the cognitive science society, volume 1, page 12. Amherst, MA, 1986. [35] Tomoharu Iwata and Makoto Yamada. Multi-view anomaly detection via robust probabilistic latent variable models. In Advances In Neural Information Processing Systems, pages 1136–1144, 2016. [36] Akisato Kimura, Zoubin Ghahramani, Koh Takeuchi, Tomoharu Iwata, and Naonori Ueda. Few-shot learning of neural networks from scratch by pseudo example optimization. BMVC, 2018. [37] James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the national academy of sciences, page 201611835, 2017. 92
  101. 101. その他の参考文献 v [38] Wataru Kumagai. Learning bound for parameter transfer learning. In Advances in Neural Information Processing Systems, pages 2721–2729, 2016. [39] Seiichi Kuroki, Nontawat Charonenphakdee, Han Bao, Junya Honda, Issei Sato, and Masashi Sugiyama. Unsupervised domain adaptation based on source-guided discrepancy. arXiv preprint arXiv:1809.03839, 2018. [40] Brenden M Lake, Tomer D Ullman, Joshua B Tenenbaum, and Samuel J Gershman. Building machines that learn and think like people. Behavioral and Brain Sciences, 40, 2017. [41] Dong-Hyun Lee. Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks. In Workshop on Challenges in Representation Learning, ICML, volume 3, page 2, 2013. [42] Zhizhong Li and Derek Hoiem. Learning without forgetting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(12):2935–2947, 2018. [43] Dhruv Mahajan, Ross Girshick, Vignesh Ramanathan, Kaiming He, Manohar Paluri, Yixuan Li, Ashwin Bharambe, and Laurens van der Maaten. Exploring the limits of weakly supervised pretraining. arXiv preprint arXiv:1805.00932, 2018. [44] Andreas Maurer, Massi Pontil, and Bernardino Romera-Paredes. Sparse coding for multitask and transfer learning. In International Conference on Machine Learning, pages 343–351, 2013. [45] Michael McCloskey and Neal J Cohen. Catastrophic interference in connectionist networks: The sequential learning problem. In Psychology of learning and motivation, volume 24, pages 109–165. Elsevier, 1989. [46] Nishant Mehta and Alexander Gray. Sparsity-based generalization bounds for predictive sparse coding. In International Conference on Machine Learning, pages 36–44, 2013. 93
  102. 102. その他の参考文献 vi [47] Mitsuaki Nishikimi, Naoyuki Matsuda, Kota Matsui, Kunihiko Takahashi, Tadashi Ejima, Keibun Liu, Takayuki Ogura, Michiko Higashi, Hitoshi Umino, Go Makishi, et al. A novel scoring system for predicting the neurologic prognosis prior to the initiation of induced hypothermia in cases of post-cardiac arrest syndrome: the cast score. Scandinavian journal of trauma, resuscitation and emergency medicine, 25(1):49, 2017. [48] Sadao Ota, Ryoichi Horisaki, Yoko Kawamura, Masashi Ugawa, Issei Sato, Kazuki Hashimoto, Ryosuke Kamesawa, Kotaro Setoyama, Satoko Yamaguchi, Katsuhito Fujiu, et al. Ghost cytometry. Science, 360(6394):1246–1251, 2018. [49] Mark Palatucci, Dean Pomerleau, Geoffrey E Hinton, and Tom M Mitchell. Zero-shot learning with semantic output codes. In Advances in neural information processing systems, pages 1410–1418, 2009. [50] Novi Patricia and Barbara Caputo. Learning to learn, from transfer learning to domain adaptation: A unifying perspective. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1442–1449, 2014. [51] Ievgen Redko, Nicolas Courty, Rémi Flamary, and Devis Tuia. Optimal transport for multi-source domain adaptation under target shift. arXiv preprint arXiv:1803.04899, 2018. [52] Ievgen Redko, Amaury Habrard, and Marc Sebban. Theoretical analysis of domain adaptation with optimal transport. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 737–753. Springer, 2017. [53] Sebastian Ruder. An overview of multi-task learning in deep neural networks. arXiv preprint arXiv:1706.05098, 2017. [54] Kuniaki Saito, Yoshitaka Ushiku, and Tatsuya Harada. Asymmetric tri-training for unsupervised domain adaptation. In International Conference on Machine Learning, pages 2988–2997, 2017. 94
  103. 103. その他の参考文献 vii [55] Arthur L Samuel. Some studies in machine learning using the game of checkers. IBM Journal of research and development, 3(3):210–229, 1959. [56] Issei Sato, Yukihiro Nomura, Shouhei Hanaoka, Soichiro Miki, Naoto Hayashi, Osamu Abe, and Yoshitaka Masutani. Managing computer-assisted detection system based on transfer learning with negative transfer inhibition. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery Data Mining, pages 695–704. ACM, 2018. [57] Shai Shalev-Shwartz and Shai Ben-David. Understanding machine learning: From theory to algorithms. Cambridge university press, 2014. [58] Jian Shen, Yanru Qu, Weinan Zhang, and Yong Yu. Wasserstein distance guided representation learning for domain adaptation. In Thirty-Second AAAI Conference on Artificial Intelligence, 2018. [59] Hidetoshi Shimodaira. Improving predictive inference under covariate shift by weighting the log-likelihood function. Journal of statistical planning and inference, 90(2):227–244, 2000. [60] Bharath K Sriperumbudur, Kenji Fukumizu, Arthur Gretton, Bernhard Schölkopf, and Gert RG Lanckriet. On integral probability metrics,phi-divergences and binary classification. arXiv preprint arXiv:0901.2698, 2009. [61] Bharath K Sriperumbudur, Kenji Fukumizu, Arthur Gretton, Bernhard Schölkopf, Gert RG Lanckriet, et al. On the empirical estimation of integral probability metrics. Electronic Journal of Statistics, 6:1550–1599, 2012. [62] Masashi Sugiyama, Taiji Suzuki, and Takafumi Kanamori. Density ratio estimation in machine learning. Cambridge University Press, 2012. [63] Chen Sun, Abhinav Shrivastava, Saurabh Singh, and Abhinav Gupta. Revisiting unreasonable effectiveness of data in deep learning era. In Computer Vision (ICCV), 2017 IEEE International Conference on, pages 843–852. IEEE, 2017. [64] Sebastian Thrun and Lorien Pratt. Learning to learn. Springer Science Business Media, 2012. 95
  104. 104. その他の参考文献 viii [65] Eleni Triantafillou, Tyler Zhu, Vincent Dumoulin, Pascal Lamblin, Kelvin Xu, Ross Goroshin, Carles Gelada, Kevin Swersky, Pierre-Antoine Manzagol, and Hugo Larochelle. Meta-dataset: A dataset of datasets for learning to learn from few examples. [66] Joaquin Vanschoren. Meta-learning: A survey. arXiv preprint arXiv:1810.03548, 2018. [67] Ricardo Vilalta and Youssef Drissi. A perspective view and survey of meta-learning. Artificial Intelligence Review, 18(2):77–95, 2002. [68] Oriol Vinyals, Charles Blundell, Timothy Lillicrap, Daan Wierstra, et al. Matching networks for one shot learning. In Advances in neural information processing systems, pages 3630–3638, 2016. [69] Jane X Wang, Zeb Kurth-Nelson, Dhruva Tirumala, Hubert Soyer, Joel Z Leibo, Remi Munos, Charles Blundell, Dharshan Kumaran, and Matt Botvinick. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016. [70] Makoto Yamada, Taiji Suzuki, Takafumi Kanamori, Hirotaka Hachiya, and Masashi Sugiyama. Relative density-ratio estimation for robust distribution comparison. Neural computation, 25(5):1324–1370, 2013. [71] Amir R Zamir, Alexander Sax, William Shen, Leonidas J Guibas, Jitendra Malik, and Silvio Savarese. Taskonomy: Disentangling task transfer learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3712–3722, 2018. [72] Fuzhen Zhuang, Xiaohu Cheng, Ping Luo, Sinno Jialin Pan, and Qing He. Supervised representation learning: Transfer learning with deep autoencoders. In IJCAI, pages 4119–4125, 2015. [73] 杉山将. イラストで学ぶ機械学習最小二乗法による識別モデル学習を中心に. 講談社, 2013. [74] 西行健太, 山下隆義, and 藤吉弘亘. 階層型 knowledge distillation による dnn のコンパクト化 (パターン認識・ メディア理解). 電子情報通信学会技術研究報告 = IEICE technical report: 信学技報, 117(238):175–180, 2017. [75] 中山英樹. 深層畳み込みニューラルネットワークによる画像特徴抽出と転移学習. 信学技報, 115(146):55–59, 2015. 96

×