SlideShare a Scribd company logo
Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart
Russell and Anca Dragan. Inverse Reward Design. In
Advances in Neural Information Processing Systems , 2017.
2018年1月21日
三原 千尋
NIPS2017
論文紹介
Inverse Reward Design の紹介
出典
https://arxiv.org /pdf/1711.02827.pdf
目次 2
※ この資料内での言葉・文字の意味
論文の概要
導入1:どんな失敗があるのか
導入2:じゃあどうすればよいのか
逆報酬デザインの定義
位置付け1:報酬デザインとの対比
位置付け2:逆強化学習との対比
位置付け3:語用論との対比
逆報酬デザインを近似的に解く
補足:リスク回避的な行動最適化
検証実験:格子世界で最短経路探し
結論と今後の課題
逆報酬デザインの
提案にいたるまで
先行研究と対比した
逆報酬デザインの
位置付け
あるケースでの
解法の提示と
効果の検証
※ この資料内での言葉・文字の意味 3
𝑀 = 𝑆, 𝐴, 𝑇, 𝐻 :環境(モデル)
𝑀 = 𝑆, 𝐴, 𝑇, 𝑟, 𝐻 :マルコフ決定過程
𝑆 :状態集合
𝐴 :行動集合
𝑇(𝑠𝑡+1|𝑠𝑡, 𝑎) :状態遷移確率
𝑟 ∶ 𝑆 → ℝ :報酬関数
𝐻 ∈ ℤ+ :最大ステップ数
𝜋(∙ | 𝑟, 𝑀) : 𝑀 で報酬関数を 𝑟 とした下での方策
報酬関数を除いたもの
(原文: world model)
𝜉 = {𝑠1, 𝑎1, ⋯ , 𝑠 𝐻, 𝑎 𝐻} :軌跡
← 但し、軌跡の関数として表すことも。
論文の概要 4
• エージェントに何か学習させたいときにはそれに応じた報酬関数をデザ
インすることになるが、「報酬関数をデザインしたときに想定していた
環境では意図通りの行動をさせることができたのに、実際に学習したい
環境では想定していなかった状況に遭遇して意図しない行動に…」とい
う失敗がありうる。
• エージェントが、「これはご主人様が想定していなかった状況っぽい
(=本当は報酬が不確かな状況っぽい)」というのをちゃんと認識し、
かつリスク回避的に行動すれば、上のような失敗を防ぐことができる。
• そこで、デザインした報酬関数とデザインした環境を所与として、真の
報酬関数の分布を求める問題を提案した。= 逆報酬デザイン(IRD)
• いくつかの仮定の下で、IRDを近似的に解く方法を示した。
• 検証実験(格子世界で最短経路探し)において、「IRD + リスク回避
的行動最適化」で失敗を抑えることができた。
𝑅, 𝑀, 𝑅, 𝜋(∙ | 𝑟, 𝑀), 𝑟 逆報酬デザイン
真の報酬関数
の関数空間
デザインされる報酬関数
の関数空間
真の報酬関数
の分布
𝑃(𝑟∗| 𝑟, 𝑀)
導入1:どんな失敗があるのか 5
今回想定するシチュエーション…
開発環境
𝑟
𝑀
完全には
具現化
できない
理想の
動き
開発環境では(ほぼ)理想
的に動く(まで頑張る)
(設計ミス
する)
𝑟
本番環境 𝑀′
𝑟
同じ報酬関数が本番環境で
は意図せぬ動きにつながる
想定外の状況
報酬設計ミスによる意図せぬ動きとは? → ここでは以下の2つに整理。
• (報酬の定義ミスによる)ネガティブサイドエフェクト
― 考慮漏れ(報酬の定義し忘れ)により望まない行動が引き起こされること。
• 報酬ハッキング
―(定義し忘れではないが)報酬自体が望まないふるまいを引き起こすこと。
導入1:どんな失敗があるのか 6
• (報酬の定義ミスによる)ネガティブサイドエフェクト negative side
effect of a misspecified reward [Amodei et al., 2016]
―考慮漏れ(報酬の定義し忘れ)により望まない行動が引き起こされること。
例: 最短経路探しで、マップに土や草のマスがあることは考慮して報酬
を定義していたが、溶岩のマスがあることを考慮していなかった(本当は
そのようなマスには大きなペナルティを定義したかった)。
• 報酬ハッキング reward hacking
―(定義し忘れではないが)報酬自体が望まないふるまいを引き起こすこと。
例: 「ゴミを吸引すること」に報酬を与えられたお掃除ロボが、ゴミを
もっと吸引するために一度吸引したゴミを外に出してしまった。[Russel
& Norvig, 2010]
例: 標的を撃ち落としながらコースを周回するボートレースゲームで、
標的を撃ち落とすことに報酬を与えたら、標的をずっと撃ち落とし続けて
コースを周回してくれなくなった。[Amodei & Clark, 2016]
https://blog.openai.com/faulty-reward-functions/
※ 以下の例は、前スライドの「今回想定するシチュエーション」で起きたものとは限らない。
導入2:じゃあどうすればよいのか 7
本番環境での意図せぬ動きを回避するにはどうすればよいのか。
→ 前のスライドのような失敗は、開発環境にはみられなかった状況で
起きる(開発環境でみられる状況なら、 に織り込んでおける)か、
開発環境にみられても報酬を十分特定しきれなかった状況で起きる。
→ そのような状況では、本当はまだ報酬を意図通りに決めることがで
きていないはず。ご主人の心の中の理想を実現する「真の報酬関
数」 が とは別にあって、そのような状況ではまだ不確実なは
ず。
‐ 例. ある軌跡 について、 の値に何らかの変更を加えた報酬関
数を として、 が において と同じ動きにエージェントを導
くなら、 と は同様に確からしい( )。
→ このような考え方で「真の報酬関数」 の分布を求めておけば、
報酬の不確実性が大きい動きは避けるようにするとか、対策の取り
ようがある。
→ なので、 は開発環境では で評価してほぼ最適な動きにエー
ジェントを導くという仮定の下で、 から の分布を求める。
𝑟
𝑟𝑟∗
𝜉0 𝑟(𝜉0)
𝑟’ 𝑀𝑟’ 𝑟
𝑟’𝑟 𝑃 𝑟∗
= 𝑟 = 𝑃(𝑟∗
= 𝑟’)
𝑟∗
𝑟 𝑟∗
𝑟∗
𝑟
逆報酬デザインの定義 8
を所与として真の報酬の分布
を求める。
逆報酬デザイン(Inverse Reward Design: IRD)
𝑅, 𝑀, 𝑅, 𝜋(∙ | 𝑟, 𝑀), 𝑟 𝑃(𝑟∗| 𝑟, 𝑀)
真の報酬(の分布)のデザインに必要なパーツ
𝑟 :プロキシ報酬(デザインした報酬;もはや真の報酬ではないので
プロキシ=代理報酬とよぶ)
𝑀 :プロキシ報酬をデザインした環境
𝑅 :プロキシ報酬候補の関数空間
𝜋(∙ | 𝑟, 𝑀) :あるプロキシ報酬の下での方策
他のプロキシ報酬
だったらどんな軌跡
になるかが必要。
𝑅 :真の報酬候補の関数空間
位置付け1:報酬デザインとの対比 9
𝑟∗
, 𝑀, 𝑅, 𝜋(∙ | 𝑟, 𝑀)
を所与として
を求める。
𝑆, 𝐴, 𝑇, 𝑟, 𝐻
スタンダードな強化学習
𝜋(∙ |𝑀)
を所与として
最適報酬 を求める。
RDP: 報酬デザイン [Singh, 2010]
𝑟 ∈ 𝑅
を所与と
して を求める。
IRD: 逆報酬デザイン [この論文]
𝑅, 𝑀, 𝑅, 𝜋(∙ | 𝑟, 𝑀), 𝑟
𝑃(𝑟∗
| 𝑟, 𝑀)
← ご主人は①の面でも②の面で
も報酬のデザインに失敗しな
い(というか①と②と区別し
ない)。
報酬デザイン [Singh, 2010] は、報酬関数の2つの側面を考える。
① エージェントを評価する側面(evaluate)。
② エージェントにふるまい方を導く側面(guide)。
← ご主人は①の面で報酬のデザ
インに失敗しないが、その報
酬が②の面で失敗するかもし
れない(学習に制約があると
きは、②は①と異なりうる)。
← ご主人は①の面でも報酬のデ
ザインに失敗するかもしれな
い。いえることは、想定した
環境で②は失敗していないだ
ろうということくらい。
位置付け2:逆強化学習との対比 10
逆強化学習 [Russel, 2000] は(ほぼ)最適な軌跡から報酬関数を推定
する。逆強化学習と逆報酬デザインは目的は同じで、何を観測するか
が異なる。
• 逆強化学習(IRL) ―ほぼ最適な軌跡を観測し、報酬を推定する。
• 逆報酬デザイン(IRD)―ほぼ最適な報酬を観測し、報酬を推定する。
出発点が異なるという見方もできる。
逆強化学習 ほぼ最適な報酬 → ほぼ最適な軌跡 → 真の報酬の分布
逆報酬デザイン ほぼ最適な報酬 → ほぼ最適な軌跡 → 真の報酬の分布
逆強化学習と逆報酬デザインは、エージェントと人がコミュニケー
ションしながら問題を解くようなアプローチ(Ex. value alignment
[Hadfield-Menell,2016])で相互補完的に利用できると考えられる。
例えば、料理が上手くなってほしい相手に、「もっと塩を入れてよ」と具
体的な動き(軌跡)を指示することもあるし、具体的な動きは指示できな
いが「味が薄いよ」と評価(報酬)を伝えることもあるので、軌跡も報酬
も取り入れることができた方がよい。
逆報酬デザインを近似的に解く 11
これ以降、報酬関数は軌跡の特徴量ベクトルの線形和
で表せるものとする。よって、 から を求める問題を、 から
を求める問題に読み換える。
𝑟(𝜉)=𝑤T
𝜙(𝜉)
𝑟∗𝑟 𝑤∗𝑤
𝑃(𝑤∗
| 𝑤, 𝑀) ∝ 𝑃 𝑤 𝑤∗
, 𝑀 𝑃(𝑤∗
)
を与えた下での の分布は以下のようにかける。𝑤, 𝑀 𝑤∗
𝑃 𝑤 𝑤∗, 𝑀 ∝ exp 𝛽E 𝑤∗T 𝜙 𝜉 | 𝜉~𝜋(𝜉| 𝑤, 𝑀)
となると、ある のときに がデザインされる尤度
がほしいが、これは以下でかけると考える(仮定)。
𝑤∗ 𝑤 𝑃 𝑤 𝑤∗
, 𝑀
に基づいた方策の下で行動したときの真の報酬の期待値の 倍
のエクスポネンシャルが大きい ほどデザインされやすい。
(ご主人は最適に近いデザインをする可能性が高い。)
( はデザインの上手さを表すパラメータ。)
𝑤 𝛽
𝑤
𝛽
逆報酬デザインを近似的に解く 12
𝑃(𝑤 = 𝑤∗
| 𝑤, 𝑀) ∝
exp 𝛽𝑤T
𝜙 𝑑 𝑤
exp 𝛽𝑤T
𝜙 𝑑 𝑤
E 𝑤∗T 𝜙 𝜉 | 𝜉~𝜋(𝜉| 𝑤, 𝑀) からは を期待値の外に出すことが
できるので、 と定義すると、
𝑤∗
𝜙 = E 𝜙 𝜉 | 𝜉~𝜋(𝜉| 𝑤, 𝑀)
𝑃(𝑤)
𝑃 𝑤 𝑤∗
, 𝑀 ∝ exp 𝛽𝑤∗T
𝜙 となる。よって求める分布は、
𝑤
プロキシ関数空間上の積分が残ってしまう…。
求める分布が出たのはいいが、この分母の積分は難しい。2種類の方法
で近似的に求めることにする。
1. 積分を有限個のサンプルの和で代替する。
2. プロキシ関数空間上の積分を軌跡上の積分に換える(逆強化学習
的なアプローチ)。
逆報酬デザインを近似的に解く 13
前スライドの積分 を近似的に解く。
方法1. 積分を有限個のサンプル の和で代替する。
方法2. プロキシ関数空間上の積分を軌跡上の積分に換える(逆強化学
習的なアプローチ)。
𝑤𝑖
𝜙𝑖: 𝑤𝑖 の下で学んだ軌跡の特徴
𝜙 𝑤: 𝑤 の下で学んだ軌跡の特徴
経験的に ☆ があるとよいらしい☆
このとき、パラメータ β は、あるプロキシ報酬に基づいた方策から取り出す
軌跡の個数に相当するという解釈ができる。プロキシ報酬が上手く設計できる
と信じているときほど、プロキシ報酬に基づいた方策からたくさんの軌跡を取
り出すので、そこから推定される真の報酬関数もプロキシ報酬をそれだけ再現
したものになる。
検証実験:格子世界で最短経路探し 14
問題設定: 格子世界で宝物(黄)までの最短経路を探したい。但し、
草(緑)のマスは土(茶)のマスよりも進みにくいので、草のマスの
上を歩く道のりは最小限にしたい。ご主人は宝物と草と土のみが存在
する開発環境で報酬関数をデザインする。しかし、本番環境では溶岩
が待ち受けている。
導入で指摘した2つの失敗
• ネガティブサイドエフェクト
• 報酬ハッキング
を回避できるか検証する2パターン
の実験と、チャレンジ課題として
より現実に近い(各マスが草とか
土とか宝物とかを示す天からの声
はなく、確率的な特徴量を観測す
る)2パターンの実験と、計4パ
ターンの実験を行う(次頁)。
開発環境
(溶岩なし)
本番環境
(溶岩あり)
検証実験:格子世界で最短経路探し 15
• 実験1(上): 溶岩を報酬未定義の状態と認識(ネ
ガティブサイドエフェクトを回避できるかの検証)。
• 実験2(中):環境からは各マスの状態が2つのシ
グナルで知らされる前提で、溶岩については、一方
のシグナルは宝物、もう片方のシグナルは草むらと
告げる(報酬ハッキングを回避できるかの検証)。
• 実験3(下):各マスが土とか草とかの手がかりが
なく、特徴量が確率的にしか観測できない環境―プ
ロキシ報酬設計時に、観測された特徴量を用いて直
接報酬を設計する場合。
• 実験4(下):実験3で、まず
観測された特徴量によって土
か草か宝物かの3クラス分類
を行い、各クラス値に対して
報酬を設計する場合。
検証実験:格子世界で最短経路探し 16
近似解法1近似解法2 プロキシ報酬そのまま
溶岩を踏んでしまった割合
実験1 実験2 実験3 実験4
地図とプロキシ報酬を確率的に生成して繰り返した試行で、「テスト
環境で溶岩を踏んでしまった回数の割合」は、4パターン全ての実験に
おいて「IRD +リスク回避的行動」で動いた場合が、プロキシ報酬そ
のままで動いた場合を大きく下回った。
結論と今後の課題 17
結論
• 報酬の設計ミスによる悪影響を抑制したいという気持ちから、逆報酬
デザイン(IRD)を提案した。
• ある仮定の下で IRD を近似的に解く方法を示した。
• 検証実験(格子世界で最短経路探し)において、「IRD + リスク回
避的行動最適化」で失敗を抑えることができた。
結論と今後の課題 18
今後の課題
• 真の報酬の事後分布をどう利用するのがベストなのか。
• リスク回避計画は良いリスクまで回避してしまう。
• この論文ではリスク回避的計画問題を明示的に解いているが、環境
モデルや報酬関数が複雑だと計画問題を明示的に解くのは無理。な
ので、より複雑な環境でも IRD をつかえるように、近似的に計画問
題を解くとか、真の報酬の事後分布の使い方を工夫するとかしたい。
• 報酬関数が線形であることを仮定しているのも制約になっている
‐ 例えば今回の実験の場合、地面タイプの特徴量を地面の色
(RGB)として受信していたら上手くいかなかっただろう。
• 加えて、IRD で報酬の設計ミスをリカバーできるといっても、いま
の IRD はミスの仕方にも制約があるのが課題(上手にミスしなけれ
ばならない)。

More Related Content

What's hot

Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Deep Learning JP
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
 
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
【DL輪読会】Responsive Safety in Reinforcement Learning  by PID Lagrangian Methods...【DL輪読会】Responsive Safety in Reinforcement Learning  by PID Lagrangian Methods...
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
Deep Learning JP
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点
Taiji Suzuki
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
MLSE
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII
 
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
Deep Learning JP
 
CVPR2019読み会@関東CV
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CV
Takanori Ogata
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
Deep Learning JP
 

What's hot (20)

Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
【DL輪読会】Responsive Safety in Reinforcement Learning  by PID Lagrangian Methods...【DL輪読会】Responsive Safety in Reinforcement Learning  by PID Lagrangian Methods...
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点深層学習の数理:カーネル法, スパース推定との接点
深層学習の数理:カーネル法, スパース推定との接点
 
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms[DL輪読会]representation learning via invariant causal mechanisms
[DL輪読会]representation learning via invariant causal mechanisms
 
CVPR2019読み会@関東CV
CVPR2019読み会@関東CVCVPR2019読み会@関東CV
CVPR2019読み会@関東CV
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景[DL輪読会]1次近似系MAMLとその理論的背景
[DL輪読会]1次近似系MAMLとその理論的背景
 

Similar to Inverse Reward Design の紹介

Ideawork tools workshop_2013311
Ideawork tools workshop_2013311Ideawork tools workshop_2013311
Ideawork tools workshop_2013311Rikie Ishii
 
ICT 20years planning
ICT 20years planningICT 20years planning
ICT 20years planning
koichi ikeda
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP
 
採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)
Yohei SUZUKI
 
T univ brainstorming_2013
T univ brainstorming_2013T univ brainstorming_2013
T univ brainstorming_2013Rikie Ishii
 
関西匠塾
関西匠塾関西匠塾
関西匠塾
Hagimoto Junzo
 
第2回慶應イノベーティブデザインスクール(KiDS) 「世界を変える新規事業・起業のためのコンセプトビジュアライゼーション」 コンセプトデザインのためのア...
第2回慶應イノベーティブデザインスクール(KiDS) 「世界を変える新規事業・起業のためのコンセプトビジュアライゼーション」 コンセプトデザインのためのア...第2回慶應イノベーティブデザインスクール(KiDS) 「世界を変える新規事業・起業のためのコンセプトビジュアライゼーション」 コンセプトデザインのためのア...
第2回慶應イノベーティブデザインスクール(KiDS) 「世界を変える新規事業・起業のためのコンセプトビジュアライゼーション」 コンセプトデザインのためのア...Takanori Kashino
 
ITエンジニア×人事×MBAが主催する勉強会
ITエンジニア×人事×MBAが主催する勉強会ITエンジニア×人事×MBAが主催する勉強会
ITエンジニア×人事×MBAが主催する勉強会
ssuserc4b276
 
東京大学 open i.shcool  「アイデアプラント式 創造的なアイデアをざくざく生み出すワークショップ」
東京大学 open i.shcool  「アイデアプラント式 創造的なアイデアをざくざく生み出すワークショップ」東京大学 open i.shcool  「アイデアプラント式 創造的なアイデアをざくざく生み出すワークショップ」
東京大学 open i.shcool  「アイデアプラント式 創造的なアイデアをざくざく生み出すワークショップ」
Rikie Ishii
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
Eiji Uchibe
 
SEEDx_アイデアワークショップ_DAY1
SEEDx_アイデアワークショップ_DAY1SEEDx_アイデアワークショップ_DAY1
SEEDx_アイデアワークショップ_DAY1Rikie Ishii
 
Idea workshop 8h_20130128
Idea workshop 8h_20130128Idea workshop 8h_20130128
Idea workshop 8h_20130128
Rikie Ishii
 
分析のリアルがここに!現場で使えるデータ分析
分析のリアルがここに!現場で使えるデータ分析分析のリアルがここに!現場で使えるデータ分析
分析のリアルがここに!現場で使えるデータ分析
webcampusschoo
 
How we build creative global teams at Rakuten ?
How we build creative global teams at Rakuten ? How we build creative global teams at Rakuten ?
How we build creative global teams at Rakuten ?
Rakuten Group, Inc.
 
アイデアワークショップ基本キット ver001
アイデアワークショップ基本キット ver001アイデアワークショップ基本キット ver001
アイデアワークショップ基本キット ver001
Rikie Ishii
 
ビジネスをデザインする匠Method
ビジネスをデザインする匠Methodビジネスをデザインする匠Method
ビジネスをデザインする匠Method
Hagimoto Junzo
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
Kentaro Tachibana
 
すくすくスクラム要求開発入門(公開用).Key
すくすくスクラム要求開発入門(公開用).Keyすくすくスクラム要求開発入門(公開用).Key
すくすくスクラム要求開発入門(公開用).Key
Eiichi Hayashi
 

Similar to Inverse Reward Design の紹介 (20)

Ideawork tools workshop_2013311
Ideawork tools workshop_2013311Ideawork tools workshop_2013311
Ideawork tools workshop_2013311
 
ICT 20years planning
ICT 20years planningICT 20years planning
ICT 20years planning
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
 
採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)採用と育成スキームの科学13(配布用資料)
採用と育成スキームの科学13(配布用資料)
 
T univ brainstorming_2013
T univ brainstorming_2013T univ brainstorming_2013
T univ brainstorming_2013
 
関西匠塾
関西匠塾関西匠塾
関西匠塾
 
第2回慶應イノベーティブデザインスクール(KiDS) 「世界を変える新規事業・起業のためのコンセプトビジュアライゼーション」 コンセプトデザインのためのア...
第2回慶應イノベーティブデザインスクール(KiDS) 「世界を変える新規事業・起業のためのコンセプトビジュアライゼーション」 コンセプトデザインのためのア...第2回慶應イノベーティブデザインスクール(KiDS) 「世界を変える新規事業・起業のためのコンセプトビジュアライゼーション」 コンセプトデザインのためのア...
第2回慶應イノベーティブデザインスクール(KiDS) 「世界を変える新規事業・起業のためのコンセプトビジュアライゼーション」 コンセプトデザインのためのア...
 
第4回「試す」applim キックオフイベント基調講演
第4回「試す」applim キックオフイベント基調講演第4回「試す」applim キックオフイベント基調講演
第4回「試す」applim キックオフイベント基調講演
 
ITエンジニア×人事×MBAが主催する勉強会
ITエンジニア×人事×MBAが主催する勉強会ITエンジニア×人事×MBAが主催する勉強会
ITエンジニア×人事×MBAが主催する勉強会
 
東京大学 open i.shcool  「アイデアプラント式 創造的なアイデアをざくざく生み出すワークショップ」
東京大学 open i.shcool  「アイデアプラント式 創造的なアイデアをざくざく生み出すワークショップ」東京大学 open i.shcool  「アイデアプラント式 創造的なアイデアをざくざく生み出すワークショップ」
東京大学 open i.shcool  「アイデアプラント式 創造的なアイデアをざくざく生み出すワークショップ」
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
SEEDx_アイデアワークショップ_DAY1
SEEDx_アイデアワークショップ_DAY1SEEDx_アイデアワークショップ_DAY1
SEEDx_アイデアワークショップ_DAY1
 
Idea workshop 8h_20130128
Idea workshop 8h_20130128Idea workshop 8h_20130128
Idea workshop 8h_20130128
 
分析のリアルがここに!現場で使えるデータ分析
分析のリアルがここに!現場で使えるデータ分析分析のリアルがここに!現場で使えるデータ分析
分析のリアルがここに!現場で使えるデータ分析
 
How we build creative global teams at Rakuten ?
How we build creative global teams at Rakuten ? How we build creative global teams at Rakuten ?
How we build creative global teams at Rakuten ?
 
アイデアワークショップ基本キット ver001
アイデアワークショップ基本キット ver001アイデアワークショップ基本キット ver001
アイデアワークショップ基本キット ver001
 
ビジネスをデザインする匠Method
ビジネスをデザインする匠Methodビジネスをデザインする匠Method
ビジネスをデザインする匠Method
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
すくすくスクラム要求開発入門(公開用).Key
すくすくスクラム要求開発入門(公開用).Keyすくすくスクラム要求開発入門(公開用).Key
すくすくスクラム要求開発入門(公開用).Key
 

Inverse Reward Design の紹介