Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
Next

1

Share

181122_learning_optimal_policies_from_observational_data

Top Conference論文勉強会(18/11/22) 発表資料

181122_learning_optimal_policies_from_observational_data

  1. 1. © So-net Media Networks Corporation. Learning Optimal Policies from Observational Data Top Conference 論⽂読み会 2018/11/22(⽊) 東京⼯業⼤学 経営⼯学系 学⼠課程3年 齋藤 優太 *本スライドで⽤いられている表や図は全て[1]からの引⽤です.
  2. 2. © So-net Media Networks Corporation. 2紹介論⽂ •  Learning Optimal Policies from Observational Data [1] •  OxfordのMihaela van der Schaar Lab •  ICML 2018 •  要約 •  ⽬的:Observationalデータを⽤いた介⼊⽅策最適化 •  背景:既存⼿法はPropensityが必要かつlinearクラスのみ対応 •  ⼿法:Unsupervised Domain Adaptation, DANN* * Domain Adversarial Neural Network [6]
  3. 3. © So-net Media Networks Corporation. 3研究マップ (BLBF) BLBF* PF [ICML 17] DACPOL [ICML 18] POEM** [ICML 15] *Batch Learning from Bandit Feedback : BLBFの定式化. 精度⾃体はあまり良くないっぽい? :Policy Outcomeを最⼤化するよう特徴空間を分割しながら  介⼊割当を個別化していくtree-basedなアルゴリズム. :DANNから着想を得て, 真のPolicy Outcome の  下界をempiricalに算出して, それを最⼤化. これ ** BanditNet[4]とかSNIPS[5]とかいくつか派⽣⼿法もある
  4. 4. © So-net Media Networks Corporation. 4Abstract & Introduction Aさん Bさん Factual介⼊ 介⼊1 介⼊9 介⼊0 Counterfactual Counterfactual 介⼊1 3,000円 Counterfactual ... ... ... Counterfactual Counterfactual 介⼊8 Counterfactual Counterfactual 介⼊9 Counterfactual 0円 最適介⼊ ? ? •  以下の状況で, 各データに対する最適な介⼊を導き出したい. •  しかし, データはObservational. つまり, 各介⼊割り当てが特徴量に依存.
  5. 5. © So-net Media Networks Corporation. 5Notation •  Action (介⼊) : •  特徴量空間  : •  ⽬的変数空間 : •  潜在⽬的変数 : •  学習⽤ログ : (Finite Sample)
  6. 6. © So-net Media Networks Corporation. 6Notation •  ⽅策(Policy) : •  潜在⽬的変数の期待値: •  Policy Outcome :
  7. 7. © So-net Media Networks Corporation. 7Notation •  ⽅策(Policy) : •  潜在⽬的変数の期待値: •  Policy Outcome : やりたいこと ただし、Observational
  8. 8. © So-net Media Networks Corporation. 8Proposed Framework 基本コンセプト:「Policy Outcomeの予測には役⽴つが,          Domainの予測には役⽴たない特徴表現を獲得」 •  representation function: •  hypothesis class :
  9. 9. © So-net Media Networks Corporation. 9Domain Adaptation的定式化 •  Source分布 : •  Target分布 : •  特徴量周辺分布: representation function  により新たな分布を⽣成
  10. 10. © So-net Media Networks Corporation. 10Domain Adaptation的定式化 により⽣成される分布を使ってPolicy Outcomeを書き直すと... これがわかれば苦労しないが、実際はCounterfactualによる⽋損が⽣じるので、 Source分布を⽤いたナイーブな Policy Outcome推定量 Target分布を⽤いたナイーブな Policy Outcome推定量 究極の⽬標はこれを最⼤化する 仮説  を導き出すこと. どんな割当にもよしなに対応してくれる
  11. 11. © So-net Media Networks Corporation. 11Target分布を⽤いた推定量は望ましい Proposition 1. proof: ⼀旦、 は固定(law of iterated expectation) の項が残るので つまり? Target分布(Randomized Data)を⽤いたナイーブな推定量は 真のPolicy Outcomeに⼀致.
  12. 12. © So-net Media Networks Corporation. 12Unsupervised Domain Adaptation Source Domain (observational) Target Domain (randomized) •  もちろん, Target分布からの実現値をデータとして得られていれば,     をデータから推定することが可能. •  もしくは, •  しかし, 私たちが⽤いることができるのは, 以下のデータのみ. ラベルあり ラベルなし
  13. 13. © So-net Media Networks Corporation. 13Sourceのデータを⽤いてboundしたい やりたいこと EmpiricalなSource Policy Outcomeを⽤いて真のPolicy Outcomeをbound データから計算できる ?を解き明かすため⼀つ⼀つ地道に不等式評価していく でも同じこと.
  14. 14. © So-net Media Networks Corporation. 14分布間距離としてH-divergenceの導⼊ 仮説集合  に属する任意のPolicy について, とすると、2つの分布     の間のH-divergenceは以下のように定義される. Definition 1. (H-divergence) つまり、 という事象列が  上で実現する確率と  上で実現する確率の差の上限
  15. 15. © So-net Media Networks Corporation. 15Source Policy OutcomeによるBound Lemma 1. proof: 真のPolicy Outcomeの下界をSource Policy OutcomeとH-divergenceで表している
  16. 16. © So-net Media Networks Corporation. 16Source Policy OutcomeによるBound Lemma 1. proof: これを有限サンプルから推定した値にすると?
  17. 17. © So-net Media Networks Corporation. 17Policy OutcomeとDivergenceの経験値 The Monte-Carlo Estimator for the Source Policy Outcome The Empirical H-divergence 経験分布を とする
  18. 18. © So-net Media Networks Corporation. 18Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り⽴つ 以上の確率で以下が成り⽴つ
  19. 19. © So-net Media Networks Corporation. 19Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り⽴つ 以上の確率で以下が成り⽴つ Empiricalに計算できる
  20. 20. © So-net Media Networks Corporation. 20Policy OutcomeとDivergenceのbound Lemma 2. Lemma 3. 以上の確率で以下が成り⽴つ 以上の確率で以下が成り⽴つ Hypothesis Complexity
  21. 21. © So-net Media Networks Corporation. 21真のPolicy Outcomeのlower bound Theorem 1. Lemma 1, 2, 3により, 以上の確率で以下が成り⽴つ Empirical計算できる  において⼀様
  22. 22. © So-net Media Networks Corporation. 22真のPolicy Outcomeのlower bound Theorem 1. ここを最⼤化したい  において⼀様 Lemma 1, 2, 3により, 以上の確率で以下が成り⽴つ
  23. 23. © So-net Media Networks Corporation. 23Counterfactual Policy Optimization Counterfactual Policy Optimization (CPO) Theorem 1に基づき, 真のPolicy Outcomeの下界を最⼤化するような 仮説と特徴表現を得るような枠組み Empirical Source Policy Outcome Empirical H-divergence (NP-Hard)
  24. 24. © So-net Media Networks Corporation. 24経験Target分布のサンプリング •  もちろん, ⼿持ちのデータはObservationalなのでそこからunlabeledの 経験Target分布をサンプリングしてあげる必要がある. •  ここで⼀様な多項分布を⽤いて Target分布⽤のactionをサンプリング •  Target分布はunlabeledなので、 事前にサンプリングした特徴量集合と concatしてあげれば良い
  25. 25. © So-net Media Networks Corporation. 25Optimization Criteria •  Policy Blockに対する損失関数. に対応. •  Domain Blockに対する損失関数*. に対応. 最適化において扱いやすくするため 定義に対して修正を加えたもの : Source分布に従うデータなら0, Target分布に従うデータなら1を取るdomain label * 論⽂におけるdomain lossはおそらくtypoです. こちらの表記を⽤いるとパラメータ更新式などの筋が通るかと…
  26. 26. © So-net Media Networks Corporation. 26Optimization Criteria •  Policy Blockに対する損失関数. に対応. •  Domain Blockに対する損失関数. に対応. •  Totalの損失関数. domain lossの考慮具合を司るhyper-parameter 最適化において扱いやすくするため 定義に対して修正を加えたもの
  27. 27. © So-net Media Networks Corporation. 27Architecture (DANN) 以下の3つのパートから成る •  Representation Block •  Policy Block •  Domain Block Representation Policy Domain •  Outcome依存, Domain⾮依存な 新たな特徴表現を得るための層 •  新たに得た特徴表現を⽤いて 最適な介⼊を予測するための層 •  新たに得た特徴表現を⽤いて Domainを予測するための層
  28. 28. © So-net Media Networks Corporation. 28Architecture (DANN) 以下の3つのパートから成る •  Representation Block •  Policy Block •  Domain Block をpolicy lossを減少させる⽅向にパラメータを更新. gradient reversal layer[8] を通すことによって,     はdomain lossを減少させる⽅向に, は増加させる⽅向に 敵対的にパラメータを更新.
  29. 29. © So-net Media Networks Corporation. 29Optimization Algorithm (DACPOL*) * Domain Adverse Counterfactual POLicy training Trainデータから経験Target分布を⽣成 (Algorithm 1) Policy LossとDomain Lossを それぞれデータから計算 Policy LossとDomain Lossの勾配により Representation, Policy, Domainの パラメータを更新 (propagationの様⼦はarchitecture参照)
  30. 30. © So-net Media Networks Corporation. 30Optimization Algorithm (DACPOL*) * Domain Adverse Counterfactual POLicy training representation blockのパラメータを •  Policy Lossを減少させる⽅向 •  Domain Lossを増加させる⽅向 に更新する. に対し敵対的. Target分布におけるPolicy Lossを減少させるような 特徴表現を得ることを⽬指していると解釈できる
  31. 31. © So-net Media Networks Corporation. 31実験setup •  使⽤データセット (potential outcomeとactionを⽣成したsemi-synthetic) •  Breast cancer dataset (5つの治療をaction) •  Satellite image dataset (imageのlabelをaction) •  Research Questions (RQs) 1.  Loss(最適介⼊不正解率) 2.  Hyper-parameter を変化させた時の精度の推移 3.  Selection biasの⼤きさに対する頑健性 4.  #Irrelevant featuresに対する頑健性
  32. 32. © So-net Media Networks Corporation. 32RQ1: Loss •  提案⼿法のDACPOLが他のBenchmarkを圧倒する性能 •  Domain Lossもちゃんと考慮することで性能が向上 (RQ2で検証) •  POEMやIPSは本論⽂でTrueのPropensityが必要とされているが, Propensityを必要としないDACPOLとfairに⽐較するため推定値を⽤いた
  33. 33. © So-net Media Networks Corporation. 33RQ2: Lambda •  Lambdaを徐々に⼤きくした時の 性能の推移グラフ •  Lambdaが⼩さいとDomain Lossを 考慮せずselection biasの影響を受ける •  Lambdaが⼤きいとPolicy Lossを 考慮せずoutcomeの予測を考慮しない 特徴表現が学習されてしまう
  34. 34. © So-net Media Networks Corporation. 34RQ3: Selection Bias •  Selection biasを徐々に⼤きくした時の 性能の推移グラフ •  Selection biasが⼤きいとSourceとTarget の分布乖離が⼤きくなるので lossのboundが緩くなってしまう •  それでも, domain lossを考慮することで selection biasの⼤部分を取り除けている
  35. 35. © So-net Media Networks Corporation. 35RQ4: #Irrelevant Features •  #Irrelevant featuresを徐々に ⼤きくした時の性能の推移グラフ •  学習データのaction割り当ては irrelevant featuresにのみ依存 •  #Irrelevant featureが増えると selection biasも増えるため POEMはvarianceの増加により性能悪化 •  ⼀⽅で, DACPOLはrepresentation block でrelevant featuresのみを抽出できるため 性能がさほど変わらない
  36. 36. © So-net Media Networks Corporation. 36Conclusion •  Observationalデータを⽤いた介⼊⽅策最適化問題に対して Domain Adaptation的に真のPolicy Outcomeに対する下界を導出 •  Empirical source policy outcomeとempirical H-divergenceに依存する 下界を最⼤化する枠組みとしてCPOを提案 •  CPOにおける⼀つのアルゴリズムとしてDANNに着想を得たDACPOLを提案 •  Semi-syntheticデータを⽤いた実験で, DACPOLはdomain lossとpolicy loss の良好なtrade-offを達成し, より良い介⼊⽅策を導き出した
  37. 37. © So-net Media Networks Corporation. 37 ご静聴ありがとうございました。
  38. 38. © So-net Media Networks Corporation. 38References [1] O. Atan, W. R. Zame, and M. van der Schaar. Learning optimal policies from observational data. International Conference on Machine Learning (ICMLʼ18). [2] Adith Swaminathan and Thorsten Joachims. Batch learning from logged bandit feedback through counterfactual risk minimization. Journal of Machine Learning Research 16 (2015), 1731–1755. [3] Adith Swaminathan and Thorsten Joachims. Counterfactual Risk Minimization: Learning from Logged Bandit Feedback. International Conference on Machine Learning (ICMLʼ15). [4] Thorsten Joachims, Artem Grotov, Adith Swaminathan,and Maarten de Rijke. Deep Learning with Logged Bandit Feedback. Proceedings of the International Conference on Learning Representations (ICLR) (2018).
  39. 39. © So-net Media Networks Corporation. 39References [5] A. Swaminathan and T. Joachims. The self-normalized estimator for counterfactual learning. In NIPS, 2015 [6] Ganin, Yaroslav, Ustinova, Evgeniya, Ajakan, Hana, Germain, Pascal, Larochelle, Hugo, Laviolette, Francois, Marchand, Mario, and Lempitsky, Victor. Domain adversarial training of neural networks. The Journal of Machine Learning Research, 17(1), 2016. [7] Ben-David, Shai, Blitzer, John, Crammer, Koby, and Pereira, Fernando. Analysis of representations for domain adaptation. In Advances in neural information processing systems, pp. 137–144, 2007. [8] Yaroslav Ganin and Victor Lempitsky. Unsupervised domain adaptation by backpropagation. In ICML, pages 325–333, 2015. URL http://jmlr.org/proceedings/papers/ v37/ganin15.html.
  • yoichichikahara

    Oct. 11, 2019

Top Conference論文勉強会(18/11/22) 発表資料

Views

Total views

418

On Slideshare

0

From embeds

0

Number of embeds

13

Actions

Downloads

0

Shares

0

Comments

0

Likes

1

×