SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
Learn What Not to Learn: Action Elimination with Deep
Reinforcement Learning
Koichiro Tamura, Matsuo Lab
http://deeplearning.jp/
Agenda
1. Paper Information
2. Problem to Solve
3. Abstract
4. Related Work
5. Action Elimination
6. Method
7. Experiment Results
2
PAPER INFORMATION
• Learn What Not to Learn: Action Elimination with Deep Reinforcement
Learning
– Tom Zahavy, Matan Haroush, Nadav Merlis, Daniel J. Mankowitz, Shie Mannor
– https://arxiv.org/abs/1809.02121
– Submitted on 6 Sep 2018
– NIPS2018 accepted
– RLにおいて,選択可能な行動が多い場合学習が難しい. contextual multi-armed
bandits を導入し,「どの行動を取るべきではないか」というAction-Elimination機構を
深層強化学習に取り入れることで,より高速でロバストな学習を可能にし,膨大な行
動空間を持つゲーム`Zork`などで優れたパフォーマンスを示した.
3
RLにおける課題
• Deep Reinforce Learning(以下DRL)は,Agentの環境の認識力を高め,ドメイ
ンナリッジがなくても学習を行うことを可能にした
• しかし,実世界への適用において,選択可能な行動が数多ある場合,そして特に
それが冗長で見当外れである場合,学習が非効率で現実的ではないという問題が
ある
– [人間]: 文脈から可能性の低い行動を認知することができる
– [RL Agent]: 人間なら取らない行動も取るため,学習が非効率
• 選択可能な行動空間が多い例
– 送電網のような大規模工業用システムの制御
– 交通制御
– 旅行の計画
– レストラン・ホテル予約
– チャットボット
– テキストベースのゲーム
4
本研究の概要
• Action-Elimination(以下AE,行動空間から現実的な行動空間に制約す
る)を提案
– [既存]: ドメイン知識を導入(ex: ルールベース)することによって,現実的な行動空間
から選択して学習
– [提案]: ドメイン知識や事前知識なしに学習過程で現実的な行動空間を学習
– 無駄な行動や劣っている行動を予測し,制約された行動空間から学習・制御する方
が簡単であるという仮説
• DQN+AEN
– Action Elimination Network
– NLPのタスクに適応したCNNによって構成される
– linear contextual banditsを導入
• `Zork`で検証
– Text-based game
5
関連研究
• DRL with linear function approximation
– DNNの最終層において,線形関数を用いて価値関数を更新する
• Shallow Updates for Deep Reinforcement Learning[Levine et al., 2017]
– 深層強化学習は学習が不安定なので,DLの認識力の高さを活かしつつ,最終層のみ別途線形関数を
更新して学習するやり方
• Deep Bayesian Bandits Showdown[Requelme, 2018](ICLR2018)
– Contextual linear banditsでは,neuro-linear Thompson samplingが優れている
6
関連研究
• RL in Large Action Spaces
– 多くの既存研究は行動空間をバイナリ空間に要素分解することに注力
– Fast reinforcement learning with large action sets using error-correcting outputs
codes for mdp factorization[Dulac, 2012]
• 離散的な行動空間を連続(微分可能)な空間に埋め込む方法を提案
– 行動空間を「eliminate」すること自体は,Learning rates for Q-learning[Even-Dar,
2003]で提案されている
• 状態ごとに価値関数の信頼区間を学習することで確率的に可能性が低い行動をeliminateする
• Combating Reinforcement Learning‘s Sisyphean Curse with Intrinsic Fear[Lipton et al., 2016]で
は, (再起不能な行動に伴う)危険な状態を忘却しないようにする重要性が述べられている
7
Action Elimination
• 本研究では,MDPsにelimination signalを加えたアルゴリズムを提案
する
• 通常のRLに対して,agentはelimination signal 𝑒 𝑠, 𝑎 というバイナリ
シグナルを観測し,𝑒 𝑠, 𝑎 = 1なら状態sの時の行動aを削除する(つま
り状態sの時に行動aを取ることは二度とない)
8
Agentが行動𝑎 𝑡をとった後,報酬𝑟𝑡,次の状態
𝑠𝑡+1,elimination signal 𝑒𝑡を観測する.
観測した情報をもとに,DQNとAENを学習する
Action Elimination
• 大規模な行動空間がある場合の強化学習において,Action Elimination
には以下の議論点がある
1. Function Approximation
• Q関数の推定値の誤差によって、学習アルゴリズムがsub-optimalな方策に収束する可能性があ
り[Thrun, 1993] ,行動空間が大規模である場合は特に顕著
• Action Elimination は最適化を有効な行動空間のみに適用することで,上記の問題を改善し,潜
在的に過大評価する可能性を削減
• Q-Estimateを有効な行動空間のみで行えばよく,
1. 関数を近似するにあたって無効な行動をサンプリングする必要がない
2. 関数を近似する際によりsimpleな分布で済むことにより,収束速度が早くて正確
9
Action Elimination
• 大規模な行動空間がある場合の強化学習において,Action Elimination
には以下の議論点がある
2. Sample Complexity
• MDP(マルコフ決定過程)における複雑さ(計算量)において,elimination algorithmによって行動空
間がA->A‘ になった場合,A
Aに計算量が減ることが期待される
– 報酬関数に間違った(不適切な)行動をとった場合にペナルティを追加するアイデア
» チューニングが複雑で,収束が遅くまたサンプリングも非効率
– 方策を,報酬最大化とelimination signal errorの最小化の2つのモデルで決定していくというアイデア
» 2つのモデルが高いに相関してしまい,互いの観測に対して相互作用してしまう
10
本研究では,contextual multi-armed banditsを用いることで,elimination signalをMDPから切り離す
Action Elimination with Contextual Bandits
• Elimination signalは以下のように定義されていると仮定
– 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎
∗ 𝑇
𝑥 𝑠𝑡 + 𝜂 𝑡
• 𝜃 𝑎
∗は 𝜃 𝑎
∗
2 ≤ 𝑆を満たすパラメタ,𝜂 𝑡は平均0のsub-gaussian分布に従うノイズ
• 𝑥 𝑠𝑡 は状態𝑠𝑡を表す特徴表現
• Elimination signal を表す𝜃 𝑎
∗を推定していく
– 𝜃𝑡,𝑎
𝑇
を学習パラメタとして、以下を解く
• 𝑋𝑡,𝑎 𝜃𝑡,𝑎
𝑇
− 𝐸𝑡,𝑎 2
2
+ 𝜆 𝜃𝑡,𝑎
𝑇
2
2
を最小にする𝜃𝑡,𝑎
𝑇
は, 𝜃𝑡,𝑎
𝑇
= 𝑉𝑡,𝑎
−1
𝑋𝑡,𝑎
𝑇
𝐸𝑡,𝑎
– 𝑉𝑡,𝑎
−1
= 𝜆𝐼 + 𝑋𝑡,𝑎
𝑇
𝑋𝑡,𝑎
• 少なくとも1 − 𝛿の確率で,全てのt > 0において以下を保持される
– 𝜃𝑡,𝑎
𝑇
𝑥 𝑠𝑡 − 𝜃 𝑎
∗ 𝑇
𝑥 𝑠𝑡 ≤ 𝛽𝑡(𝛿)𝑥 𝑠𝑡
𝑇 𝑉𝑡,𝑎
−1
𝑥 𝑠𝑡
– 数式はImproved algorithms for linear stochastic bandits [Abbasi, 2011]から導入されている
– これ以上詳しい文字定義や証明は上記論文や本論文に記載
11
Action Elimination with Contextual Bandits
• Elimination signal を表す𝜃 𝑎
∗を推定していく(続き)
– 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎
∗ 𝑇
𝑥 𝑠𝑡 + 𝜂 𝑡より,
• Ε 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎
∗ 𝑇
𝑥 𝑠𝑡 ≤ 𝑙
– 𝜃𝑡,𝑎
𝑇
𝑥 𝑠𝑡 − 𝜃 𝑎
∗ 𝑇
𝑥 𝑠𝑡 ≤ 𝛽𝑡(𝛿)𝑥 𝑠𝑡
𝑇 𝑉𝑡,𝑎
−1
𝑥 𝑠𝑡 より以下の場合に状態𝑠𝑡から行動
aを削除する
• 𝜃𝑡,𝑎
𝑇
𝑥 𝑠𝑡 − 𝛽𝑡 𝛿 𝑥 𝑠𝑡
𝑇 𝑉𝑡,𝑎
−1
𝑥 𝑠𝑡 > 𝑙
• 以上は, 1 − 𝛿の確率で有効な行動の削除はしないということを保証している
• Ε 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎
∗ 𝑇
𝑥 𝑠𝑡 は文脈において線形である(0or1のバイナリではない)
– 例えば対話Agentの場合,90%相手の発話が理解できなければ発言すべきでない
• 𝑙は既知であることを想定しているが,実践的には大体0.5で十分
12
Method
• 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎
∗ 𝑇
𝑥 𝑠𝑡 + 𝜂 𝑡 における 𝑥 𝑠𝑡 は実際のところわからないので、
NNの関数𝜙 𝑠𝑡 で置き換える
– 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎
∗ 𝑇
𝜙 𝑠𝑡 + 𝜂 𝑡
– 実践的には,最適化の過程でactivationsは変化するのに対してcontextual banditsを
用いる場合には特徴量が固定されていなければならないことが問題
• そこでA batch-update framework[Levine, 2017]を導入し,2~3ステップ毎に新しいcontextual
bandit modelを学習する
13
Method
14
初期化
NNを定義
Elimination
限定された
行動空間か
ら価値関数
を推定
Experimental Result
• Gold World Domain
– 9つの部屋があって,中心から左上を目指すゲーム
– 1ステップごとに-1のペナルティで,報酬が0になるまで続ける
– 状態はあらかじめK個にカテゴライズし,環境下では4Kの行動がある(1カテゴリにつ
き4方向への移動があり,それぞれランダムな方向に移動する可能性がある)
– もし選択した行動が現在の状態と同じカテゴリに属していれば,0.75の確率で正しく
(?)動くが,そう出ない場合は0.25の確率(論文では0.5ってなっているけど多分間違い,
ランダム)で動いてしまう
– もし行動がカテゴリに合わなかったら,elimination signal=1
– 最適は方策は,同カテゴリのaction navigationに従うこと
15
Experimental Result
• Gold World Domain
– 比較として
• Vanilla Q-leaning without action elimination(green)
• the action elimination Q-learning(blue, 提案手法)
• 一つのカテゴリしかない場合(red)
16
Experimental Result
• Zork domain
– MITのメンバーによって作られたテキストベースで進んで行くRPG的ゲーム
17
Experimental Result
• Zork domain
– 膨大な状態と行動空間を持つゲームとして最適
– 20のZorkのお宝を集めるて,トロフィーを獲得することが目的
– 最終ゴールにたどり着く行動に対してポイントがもらえる
• Ex: パズルを解いて前に進んだ
– ゲーム性としていくつかの難点がある
• 長期的な目的を達成するために計画を立てる必要があること
• ランダムに発生するトロールの攻撃に対処すること
• 手がかりなどを覚えておいて,ゲーム内のオブジェクトと特定のアクションの間の相互作用を認識
する必要があること
18
Experimental Result
• Zork domain
19
Experimental Result
• Zork domain
– Open worldだと大きすぎるので、まずはある特定のドメインで実験
• Egg Quest
• Troll Quest
• 細かいゲーム設定は省略。。
– 特にTroll QuestではAE-DQNが
大幅な改善を示した
20
Experimental Result
• Zork domain
– 2つの行動空間を用いてOpen worldで実験
• A3: minimal Zork(131actions)
• A4: Open Zork(1227actions)
21

More Related Content

What's hot

Sutton chapter4
Sutton chapter4Sutton chapter4
Sutton chapter4
Shuhei Yamshita
 
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Keiichi Namikoshi
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
 
Ml system in_python
Ml system in_pythonMl system in_python
Ml system in_python
yusuke shibui
 
データドリフトの紹介
データドリフトの紹介データドリフトの紹介
データドリフトの紹介
Sho Tanaka
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
 
OSS強化学習向けゲーム環境の動向
OSS強化学習向けゲーム環境の動向OSS強化学習向けゲーム環境の動向
OSS強化学習向けゲーム環境の動向
gree_tech
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
Tomoyuki Hioki
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
Eiji Sekiya
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
Kai Sasaki
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
佑 甲野
 
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
Preferred Networks
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
Masashi Shibata
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
Takuya Minagawa
 

What's hot (20)

Sutton chapter4
Sutton chapter4Sutton chapter4
Sutton chapter4
 
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
 
Ml system in_python
Ml system in_pythonMl system in_python
Ml system in_python
 
データドリフトの紹介
データドリフトの紹介データドリフトの紹介
データドリフトの紹介
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
OSS強化学習向けゲーム環境の動向
OSS強化学習向けゲーム環境の動向OSS強化学習向けゲーム環境の動向
OSS強化学習向けゲーム環境の動向
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
 
強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷強化学習の分散アーキテクチャ変遷
強化学習の分散アーキテクチャ変遷
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
東大大学院 電子情報学特論講義資料「ハイパーパラメタ最適化ライブラリOptunaの開発」柳瀬利彦
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
サイバーエージェントにおけるMLOpsに関する取り組み at PyDataTokyo 23
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
 

Similar to [DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
Morpho, Inc.
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
Hirotaka Hachiya
 
特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙
Satoshi Hara
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
hirokazutanaka
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Toru Fujino
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Yasunori Ozaki
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
kenyanonaka
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
Kohei Wakamatsu
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
Zansa
 

Similar to [DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning (10)

(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙特徴選択のためのLasso解列挙
特徴選択のためのLasso解列挙
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
Osaka University
 
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
iPride Co., Ltd.
 
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
Yuki Miyazaki
 
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDDなぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
ssuserfcafd1
 
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptxiMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
kitamisetagayaxxx
 
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
Shinichi Hirauchi
 
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
ARISE analytics
 
Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024
Hirotaka Kawata
 
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
Hideo Kashioka
 
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
Seiya Shimabukuro
 
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
Osaka University
 
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
sugiuralab
 
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
OSgeo Japan
 

Recently uploaded (14)

ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
 
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
 
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
 
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
 
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDDなぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
 
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptxiMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
 
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
 
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
 
Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024Kotest を使って 快適にテストを書こう - KotlinFest 2024
Kotest を使って 快適にテストを書こう - KotlinFest 2024
 
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
実体験に基づく、成功するスクラム vs 失敗するスクラム 何が違う? 2024年6月22日
 
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
 
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
 
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
 
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
一般社団法人OSGeo日本支部団体紹介用スライド2024年版。OSGeo日本支部とFOSS4Gの紹介
 

[DL輪読会]Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

  • 1. DEEP LEARNING JP [DL Papers] Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning Koichiro Tamura, Matsuo Lab http://deeplearning.jp/
  • 2. Agenda 1. Paper Information 2. Problem to Solve 3. Abstract 4. Related Work 5. Action Elimination 6. Method 7. Experiment Results 2
  • 3. PAPER INFORMATION • Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning – Tom Zahavy, Matan Haroush, Nadav Merlis, Daniel J. Mankowitz, Shie Mannor – https://arxiv.org/abs/1809.02121 – Submitted on 6 Sep 2018 – NIPS2018 accepted – RLにおいて,選択可能な行動が多い場合学習が難しい. contextual multi-armed bandits を導入し,「どの行動を取るべきではないか」というAction-Elimination機構を 深層強化学習に取り入れることで,より高速でロバストな学習を可能にし,膨大な行 動空間を持つゲーム`Zork`などで優れたパフォーマンスを示した. 3
  • 4. RLにおける課題 • Deep Reinforce Learning(以下DRL)は,Agentの環境の認識力を高め,ドメイ ンナリッジがなくても学習を行うことを可能にした • しかし,実世界への適用において,選択可能な行動が数多ある場合,そして特に それが冗長で見当外れである場合,学習が非効率で現実的ではないという問題が ある – [人間]: 文脈から可能性の低い行動を認知することができる – [RL Agent]: 人間なら取らない行動も取るため,学習が非効率 • 選択可能な行動空間が多い例 – 送電網のような大規模工業用システムの制御 – 交通制御 – 旅行の計画 – レストラン・ホテル予約 – チャットボット – テキストベースのゲーム 4
  • 5. 本研究の概要 • Action-Elimination(以下AE,行動空間から現実的な行動空間に制約す る)を提案 – [既存]: ドメイン知識を導入(ex: ルールベース)することによって,現実的な行動空間 から選択して学習 – [提案]: ドメイン知識や事前知識なしに学習過程で現実的な行動空間を学習 – 無駄な行動や劣っている行動を予測し,制約された行動空間から学習・制御する方 が簡単であるという仮説 • DQN+AEN – Action Elimination Network – NLPのタスクに適応したCNNによって構成される – linear contextual banditsを導入 • `Zork`で検証 – Text-based game 5
  • 6. 関連研究 • DRL with linear function approximation – DNNの最終層において,線形関数を用いて価値関数を更新する • Shallow Updates for Deep Reinforcement Learning[Levine et al., 2017] – 深層強化学習は学習が不安定なので,DLの認識力の高さを活かしつつ,最終層のみ別途線形関数を 更新して学習するやり方 • Deep Bayesian Bandits Showdown[Requelme, 2018](ICLR2018) – Contextual linear banditsでは,neuro-linear Thompson samplingが優れている 6
  • 7. 関連研究 • RL in Large Action Spaces – 多くの既存研究は行動空間をバイナリ空間に要素分解することに注力 – Fast reinforcement learning with large action sets using error-correcting outputs codes for mdp factorization[Dulac, 2012] • 離散的な行動空間を連続(微分可能)な空間に埋め込む方法を提案 – 行動空間を「eliminate」すること自体は,Learning rates for Q-learning[Even-Dar, 2003]で提案されている • 状態ごとに価値関数の信頼区間を学習することで確率的に可能性が低い行動をeliminateする • Combating Reinforcement Learning‘s Sisyphean Curse with Intrinsic Fear[Lipton et al., 2016]で は, (再起不能な行動に伴う)危険な状態を忘却しないようにする重要性が述べられている 7
  • 8. Action Elimination • 本研究では,MDPsにelimination signalを加えたアルゴリズムを提案 する • 通常のRLに対して,agentはelimination signal 𝑒 𝑠, 𝑎 というバイナリ シグナルを観測し,𝑒 𝑠, 𝑎 = 1なら状態sの時の行動aを削除する(つま り状態sの時に行動aを取ることは二度とない) 8 Agentが行動𝑎 𝑡をとった後,報酬𝑟𝑡,次の状態 𝑠𝑡+1,elimination signal 𝑒𝑡を観測する. 観測した情報をもとに,DQNとAENを学習する
  • 9. Action Elimination • 大規模な行動空間がある場合の強化学習において,Action Elimination には以下の議論点がある 1. Function Approximation • Q関数の推定値の誤差によって、学習アルゴリズムがsub-optimalな方策に収束する可能性があ り[Thrun, 1993] ,行動空間が大規模である場合は特に顕著 • Action Elimination は最適化を有効な行動空間のみに適用することで,上記の問題を改善し,潜 在的に過大評価する可能性を削減 • Q-Estimateを有効な行動空間のみで行えばよく, 1. 関数を近似するにあたって無効な行動をサンプリングする必要がない 2. 関数を近似する際によりsimpleな分布で済むことにより,収束速度が早くて正確 9
  • 10. Action Elimination • 大規模な行動空間がある場合の強化学習において,Action Elimination には以下の議論点がある 2. Sample Complexity • MDP(マルコフ決定過程)における複雑さ(計算量)において,elimination algorithmによって行動空 間がA->A‘ になった場合,A Aに計算量が減ることが期待される – 報酬関数に間違った(不適切な)行動をとった場合にペナルティを追加するアイデア » チューニングが複雑で,収束が遅くまたサンプリングも非効率 – 方策を,報酬最大化とelimination signal errorの最小化の2つのモデルで決定していくというアイデア » 2つのモデルが高いに相関してしまい,互いの観測に対して相互作用してしまう 10 本研究では,contextual multi-armed banditsを用いることで,elimination signalをMDPから切り離す
  • 11. Action Elimination with Contextual Bandits • Elimination signalは以下のように定義されていると仮定 – 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎 ∗ 𝑇 𝑥 𝑠𝑡 + 𝜂 𝑡 • 𝜃 𝑎 ∗は 𝜃 𝑎 ∗ 2 ≤ 𝑆を満たすパラメタ,𝜂 𝑡は平均0のsub-gaussian分布に従うノイズ • 𝑥 𝑠𝑡 は状態𝑠𝑡を表す特徴表現 • Elimination signal を表す𝜃 𝑎 ∗を推定していく – 𝜃𝑡,𝑎 𝑇 を学習パラメタとして、以下を解く • 𝑋𝑡,𝑎 𝜃𝑡,𝑎 𝑇 − 𝐸𝑡,𝑎 2 2 + 𝜆 𝜃𝑡,𝑎 𝑇 2 2 を最小にする𝜃𝑡,𝑎 𝑇 は, 𝜃𝑡,𝑎 𝑇 = 𝑉𝑡,𝑎 −1 𝑋𝑡,𝑎 𝑇 𝐸𝑡,𝑎 – 𝑉𝑡,𝑎 −1 = 𝜆𝐼 + 𝑋𝑡,𝑎 𝑇 𝑋𝑡,𝑎 • 少なくとも1 − 𝛿の確率で,全てのt > 0において以下を保持される – 𝜃𝑡,𝑎 𝑇 𝑥 𝑠𝑡 − 𝜃 𝑎 ∗ 𝑇 𝑥 𝑠𝑡 ≤ 𝛽𝑡(𝛿)𝑥 𝑠𝑡 𝑇 𝑉𝑡,𝑎 −1 𝑥 𝑠𝑡 – 数式はImproved algorithms for linear stochastic bandits [Abbasi, 2011]から導入されている – これ以上詳しい文字定義や証明は上記論文や本論文に記載 11
  • 12. Action Elimination with Contextual Bandits • Elimination signal を表す𝜃 𝑎 ∗を推定していく(続き) – 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎 ∗ 𝑇 𝑥 𝑠𝑡 + 𝜂 𝑡より, • Ε 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎 ∗ 𝑇 𝑥 𝑠𝑡 ≤ 𝑙 – 𝜃𝑡,𝑎 𝑇 𝑥 𝑠𝑡 − 𝜃 𝑎 ∗ 𝑇 𝑥 𝑠𝑡 ≤ 𝛽𝑡(𝛿)𝑥 𝑠𝑡 𝑇 𝑉𝑡,𝑎 −1 𝑥 𝑠𝑡 より以下の場合に状態𝑠𝑡から行動 aを削除する • 𝜃𝑡,𝑎 𝑇 𝑥 𝑠𝑡 − 𝛽𝑡 𝛿 𝑥 𝑠𝑡 𝑇 𝑉𝑡,𝑎 −1 𝑥 𝑠𝑡 > 𝑙 • 以上は, 1 − 𝛿の確率で有効な行動の削除はしないということを保証している • Ε 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎 ∗ 𝑇 𝑥 𝑠𝑡 は文脈において線形である(0or1のバイナリではない) – 例えば対話Agentの場合,90%相手の発話が理解できなければ発言すべきでない • 𝑙は既知であることを想定しているが,実践的には大体0.5で十分 12
  • 13. Method • 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎 ∗ 𝑇 𝑥 𝑠𝑡 + 𝜂 𝑡 における 𝑥 𝑠𝑡 は実際のところわからないので、 NNの関数𝜙 𝑠𝑡 で置き換える – 𝑒𝑡 𝑠𝑡, 𝑎 = 𝜃 𝑎 ∗ 𝑇 𝜙 𝑠𝑡 + 𝜂 𝑡 – 実践的には,最適化の過程でactivationsは変化するのに対してcontextual banditsを 用いる場合には特徴量が固定されていなければならないことが問題 • そこでA batch-update framework[Levine, 2017]を導入し,2~3ステップ毎に新しいcontextual bandit modelを学習する 13
  • 15. Experimental Result • Gold World Domain – 9つの部屋があって,中心から左上を目指すゲーム – 1ステップごとに-1のペナルティで,報酬が0になるまで続ける – 状態はあらかじめK個にカテゴライズし,環境下では4Kの行動がある(1カテゴリにつ き4方向への移動があり,それぞれランダムな方向に移動する可能性がある) – もし選択した行動が現在の状態と同じカテゴリに属していれば,0.75の確率で正しく (?)動くが,そう出ない場合は0.25の確率(論文では0.5ってなっているけど多分間違い, ランダム)で動いてしまう – もし行動がカテゴリに合わなかったら,elimination signal=1 – 最適は方策は,同カテゴリのaction navigationに従うこと 15
  • 16. Experimental Result • Gold World Domain – 比較として • Vanilla Q-leaning without action elimination(green) • the action elimination Q-learning(blue, 提案手法) • 一つのカテゴリしかない場合(red) 16
  • 17. Experimental Result • Zork domain – MITのメンバーによって作られたテキストベースで進んで行くRPG的ゲーム 17
  • 18. Experimental Result • Zork domain – 膨大な状態と行動空間を持つゲームとして最適 – 20のZorkのお宝を集めるて,トロフィーを獲得することが目的 – 最終ゴールにたどり着く行動に対してポイントがもらえる • Ex: パズルを解いて前に進んだ – ゲーム性としていくつかの難点がある • 長期的な目的を達成するために計画を立てる必要があること • ランダムに発生するトロールの攻撃に対処すること • 手がかりなどを覚えておいて,ゲーム内のオブジェクトと特定のアクションの間の相互作用を認識 する必要があること 18
  • 20. Experimental Result • Zork domain – Open worldだと大きすぎるので、まずはある特定のドメインで実験 • Egg Quest • Troll Quest • 細かいゲーム設定は省略。。 – 特にTroll QuestではAE-DQNが 大幅な改善を示した 20
  • 21. Experimental Result • Zork domain – 2つの行動空間を用いてOpen worldで実験 • A3: minimal Zork(131actions) • A4: Open Zork(1227actions) 21