SlideShare a Scribd company logo
1 of 46
Download to read offline
Introduction	of	
Reinforcement	Learning
KEISUKE	FUKUTA
HARADA	USHIKU LAB.
Outline
1. What	is	RL
2. Classical	Algorithm	in	RL
◦ TD-learning
◦ Policy	gradient	method
3. Recent	DRL	application
What	is	Reinforcement	Learning
試⾏錯誤を通じて未知の環境に適応する学習制御の枠組
状態⼊⼒に対する正しい⾏動出⼒を⽰す教師は存在しないかわりに
報酬というスカラーを受け取る
最適な戦略を報酬から間接的に学習
Demo	
• https://www.youtube.com/watch?v=jXHnBouhAdU
What	is	RL
• 各Time	Step	𝑡 = 0,1, … で
1. Agentは状態 𝑠( ∈ 𝑆 を観測
Environment
s
状態 𝑠
Agent
What	is	RL
• 各Time	Step	𝑡 = 0,1, … で
1. Agentは状態 𝑠( ∈ 𝑆 を観測
2. 状態 𝑠(に応じて⾏動 𝑎( ∈ 𝐴 を選択
s
𝜋(s)
⾏動	𝑎
Agentの⾏動規則
状態から⾏動への写像 𝜋 ∶ 	𝑆	 → 𝐴
⽅策	𝜋 𝑠
Environment
Agent
What	is	RL
• 各Time	Step	𝑡 = 0,1, … で
1. Agentは状態 𝑠( ∈ 𝑆 を観測
2. 𝜋(𝑠() を利⽤して⾏動 𝑎( ∈ 𝐴 を選択
3. 環境は 𝑠( → 𝑠(34に遷移する
s s’
𝜋(s)
Environment
Agent
What	is	RL
• 各Time	Step	𝑡 = 0,1, … で
1. Agentは状態 𝑠( ∈ 𝑆 を観測
2. 𝜋(𝑠() を利⽤して⾏動 𝑎( ∈ 𝐴 を選択
3. 環境は 𝑠( → 𝑠(34に遷移する
4. Agentは環境から 報酬𝑟( ∈ 𝑅	と	𝑠(34	を観測
s s’
𝜋(s)
状態 𝑠′,	報酬 𝑟
Environment
Agent
What	is	RL
• 各Time	Step	𝑡 = 0,1, … で
1. Agentは状態 𝑠( ∈ 𝑆 を観測
2. 𝜋(𝑠() を利⽤して⾏動 𝑎( ∈ 𝐴 を選択
3. 環境は 𝑠( → 𝑠(34に遷移する
4. Agentは環境から 報酬𝑟( ∈ 𝑅	と	𝑠(34	を観測
• ⽬標 :	累積報酬 ∑ 𝑟(( を 最⼤化する⽅策	𝜋(𝑠) の獲得
(普通は、減衰係数 𝛾	を導⼊し、∑ 𝛾(:4 𝑟(( とする)
Agent
s s’
𝜋(s)
𝑠 𝑎 𝑠′,	𝑟
Environment
Characteristic	of	RL
• 教師は存在せず、報酬のみで学習
• Agentは環境についての事前知識はない
◦ プランニングとの違い(両⽅組み合わせることもある,	Ex.	Guided	Policy	Search)
• 報酬のフィードバックは遅れてやってくる
◦ ある瞬間の⾏動が正しかったかの判断が難しい
• 時間という概念 (sequential,	non	i.i.d data)
• Agentのある時刻での⾏動が後に影響を与える
• Markov	decision	Process
◦ マルコフ性 :	𝑃 𝑠(34, 𝑟( 		𝑠(, 𝑎(, 𝑠(:4, 𝑎(:4 	… 𝑠<, 𝑎<	)	 =𝑃 𝑠(34, 𝑟( 		𝑠(, 𝑎()
◦ マルコフ性を満たす環境下でのAgentの意思決定をMDP	(Markov	decision	Processes)と呼ぶ
Applications	of	RL
• ゲームプレイ (ex.	Atari,	Backgammon,	Go)
◦ ゲームに勝つ、スコアを獲得することが⽬標	
• ヘリコプター制御
◦ 墜落せずに⾶⾏することが⽬標
• ロボットの歩⾏制御
◦ 倒れずに進むことが⽬標
• ⾦融取引
◦ リスクを⼩さく資⾦を増やすことが⽬標	
• 電⼒最適化	
◦ 閾値を超えない範囲で効率化	
• 対話システム	
◦ 会話が破綻させないことが⽬標
Example
Atari
• ⽬標	:	ゲームのスコアの最⼤化	
	
• 状態	𝑠(	:	ゲーム画⾯	(markov性を持たせるために4timestep分の画⾯)	
• ⾏動	𝑎(	:	ボタン⼊⼒	
• 報酬	𝑟( :	スコア
Components	of	RL
• ⽅策 :	
◦ Agentのふるまいを決める関数
• 価値関数:	
◦ 各状態や⾏動がどれくらい良いのかを評価する関数
Value	Function
• この状態はどれくらい良いのか (囲碁、将棋でいうと盤⾯の評価)
• この状態でこの⾏動を取ると将来どうなりそうか
状態	𝑠	において、そこから⽅策𝜋に従って⾏動した
とき、最終的に獲得できる累積報酬を予測する関数
V>
𝑠 = 𝔼@~B,C~D,E~>	[	∑ 𝛾G
𝑟(3G|	𝑠( = 𝑠	I
GJ< ]
状態価値関数 V>
𝑠
状態	𝑠	において、 ⾏動𝑎を取り、そこから⽅策𝜋に従って⾏動したと
き、最終的に獲得できる累積報酬を予測する関数
Q>
𝑠, 𝑎 = 𝔼@~B,C~D,E~>	[	∑ 𝛾G
𝑟(3G|	𝑠( = 𝑠, 𝑎( = 𝑎	I
GJ< ]
⾏動価値関数	𝑄>
(𝑠, 𝑎)
状態 st
⾏動 at
時刻tで状態stにいるとき
⾏動atをとる価値
時刻tで状態stにいる価値
状態 st
Classification	of	RL
• Model	free	or	Model	based
◦ 環境の情報(ダイナミクス	𝑃(𝑠(34|𝑠(, 𝑎()等)を使⽤するかどうか	
• On-policy	or	Off-policy
◦ 意思決定に使⽤される⽅策を直接改善するかどうか
• Value	based	or	Policy	based
◦ 価値関数を学習するか、明⽰的に⽅策を学習するか
Value	based	or	Policy	based
• Value-based
◦ 価値関数を学習,		Implicitな⽅策を利⽤	
◦ Ex.	TD-learning	(Sarsa,	Q-learning,	TD(𝜆))
• Policy-based
◦ 価値関数を学習せず,	⽅策を直接学習する	
◦ Ex.	REINFORCE,	Guided	policy	search	
• Actor-Critic
◦ 価値関数を学習し、それをもとに⽅策も学習	
◦ Ex.	DDPG,
TD	Learning	(Temporal-Difference	Learning)
• Bellman	Equationを利⽤して価値関数を更新
V>
𝑠 	← 𝛼	V>
𝑠 + (1 − 𝛼)	{	𝑟(	+𝛾	𝑉>
(𝑠U
)}
Q>
𝑠, 𝑎 ← 𝛼Q>
𝑠, 𝑎 + 1 − 𝛼 {𝑟(	+𝛾	𝑄>
(𝑠U
, 𝜋 𝑠U
}
• エピソードの終了を待たずに即時更新できるのが強い
• 脳はこんなようなことをやっているらしい
累積報酬 =	即時報酬 +	その先の未来でもらえる期待報酬
V> 𝑠 = 𝔼>,@[	𝑟(	 + 𝛾	𝑉>(𝑠U)]
Q> 𝑠, 𝑎 = 𝔼>,@[	𝑟(	 + 𝛾	𝑄>(𝑠U, 𝜋(𝑠′)]
Bellman	Equation
Q-learning
最も基本的な強化学習アルゴリズムの⼀つ (model-free,		off-policy,		value-base)
• ⾏動価値関数を最適化
• Greedyな⽅策𝜋 𝑠 = arg max
E
𝑄(𝑠, 𝑎)を利⽤
• 更新式
Q>
𝑠, 𝑎 ← 𝛼Q>
𝑠, 𝑎 + 1 − 𝛼 {𝑟(	+𝛾 max
EU
𝑄(𝑠U
, 𝑎U
)}
• 常にQ値の⾼い⾏動を選択するというpolicyを採⽤することで学習が効率化
→ 常に⾼いのしか選ばなかったらまだ選んだこと無いけど良い⾏動が学習されないのでは?
Exploitation-Exploration	Trade-off
Multi-armed	bandit	
◦ 腕が数本あるスロットマシン
◦ それぞれの腕毎に出てくる賞⾦額とその確率は違う
◦ 限られた回数で多くの賞⾦がほしい
バカ:1回⽬で腕Aで1000円当たった → 腕Aしか回さない
賢者:腕Aは確かに悪くない。けど他にもいいのがあるかもしれないから試してみたい
→ Exploitation-Exploration	Trade	off
探索
Exploration
活⽤
Exploitation
Q-learning
• Greedy	法
◦ 𝜋 𝑠 = arg max
E
𝑄(𝑠, 𝑎)
• 𝜖 - Greedy法
◦ 確率 𝜖 で ランダムな 𝑎 :	Exploration
◦ 確率 1	- 𝜖 で arg max
E
𝑄(𝑠, 𝑎) :	Exploitation
◦ 多くの場合、学習と共に 𝜖 を⼩さくしていく(バランスを気をつけないと、局所解に)
• Softmax⾏動基準
◦ 𝑋^ = 𝑄 𝑠, 𝑎^ とすると、𝑝 𝑎^ =
`ab/d
∑ `ab/d
b
	
◦ 探索においても、価値の⽐によって選ばれ⽅が変わる
Representation	of	Value	Function
0.1 0.5 1.0 1.5 0.0 0.3 0.1 … 0.2 0.1
状態価値V 状態s
状態価値V
Q(s,a)だったらテーブル
迷路とかの単純な状態空間なら良いが、状態空間が爆発するとき困る
Function	Approximation	of	Value	Function
状態s
状態価値V
𝑉 𝑠 = 𝑓 𝑠 		, 	𝑠 = (𝑥<, 𝑥4,…)
関数 𝑓	には、線形モデルだったり、⼀般化線形モデルだったりが選ばれる
DQN
• Q - learning	における⾏動価値関数の関数近似においてCNNを使⽤
• 価値関数のNNによる近似⾃体は昔からある
◦ TD	– Gammon	[Tesauro,		1994]
• Q-learningは、関数近似に線形なモデルを利⽤し、適切な学習率を設定し
⼗分な探索が⾏われた場合収束することが理論的に保証されている
→ CNNのような複雑な⾮線形モデルの場合収束が保証されない
→ 頑張って収束させた!! (そのためのいろんな⼯夫)
じゃあ何が新しいのか
Experience	Replay
強化学習 × DNN の難しさ
• DNNを学習させる際、データサンプルはi.i.d.である必要
→ But! 強化学習では、
◦ 似たような状態⼊⼒が続く (⼊⼒に相関)
◦ ゲームの進⾏状況によるサンプルのdistributionの変化
◦ ⼀度覚えたことを忘れてしまう
• そもそも学習に⼤量サンプル必要
◦ 環境とのインタラクションを何度もしなければならない
学習が不安定
サンプルを集めるのに
⾮常に時間がかかる
どこか(Replay	buffer)に経験をサンプル保存しておいて、
更新するときはそこから確率的に取り出して更新しよう!! Off-policyにのみ適⽤可能
Value	based	or	Policy	based
• Value-based
◦ 価値関数を学習,		Implicitな⽅策を利⽤	
◦ Ex.	TD-learning	(Sarsa,	Q-learning,	TD(𝜆))
• Policy-based
◦ 価値関数を学習せず,	⽅策を直接学習する	
◦ Ex.	REINFORCE,	Guided	policy	search	
• Actor-Critic
◦ 価値関数を学習し、それをもとに⽅策も学習	
◦ Ex.	DDPG,
Explicit	Policy
• Value-based
◦ Implicitな⽅策 ex.	Q-learning	𝜋 𝑠 = 	arg max
E
𝑄 𝑠, 𝑎
→ ⾏動𝑎	の取りうる選択肢が⾮常に多かったら?
→ 確率的な⽅策を表現したかったら?
→ ロボットの制御みたいに連続値を扱いたかったら?
𝜋 𝑠 を明⽰的に導⼊
Policy	gradient	method
Guided	policy	search
..	Etc.
Explicit	Policy
• Advantages:
◦ 収束しやすい
◦ 連続空間、⾼次元空間に適⽤可能
◦ デモンストレーションから学習することも可能
◦ 探索を直接的にコントロールできる
◦ 確率的な⽅策も学習可能
• Disadvantages:	
◦ 局所解に陥りやすい
◦ ⽅策の評価の効率が悪いことが多い
• Policyの学習⽅法は⼤量にある	(policy	search)
Policy	Search
Example
Cart	pole	balancing	(Mujoco simulator)
• ⽬標	:	棒を垂直に維持する	
	
• 状態	:	ゲーム画⾯、もしくは速度、回転⾓等の物理量	
• ⾏動	:	⼊⼒トルク	
• 報酬	:cos 𝜃 	(𝜃 :	棒の⾓度	)
これまた古典的なアルゴリズムだがよく使⽤される
• ⽬的関数
𝐽 𝜋l = m𝜌>
o
m 𝜋 𝑠, 𝑎 𝑟 𝑠, 𝑎 	𝑑𝑎	𝑑𝑠
q
=	 𝔼@~r,E~>s	 𝑟 𝑠, 𝑎
• 𝐽 𝜋l を最⼤にするような⽅策𝜋lを求めたい
→ そのために、𝛻l 𝐽 𝜋l を求めて𝜋lを更新したい
• 𝛻l 𝐽 𝜋l を求める⽅法として
◦ Likelihood	ratio	method
◦ Value	gradient
Policy	gradient
Policy	Gradient	Method
𝛻l 𝜋 𝑎|𝑠 =	𝜋 𝑎|𝑠
us> E|@
> E|@
=	𝜋 𝑎|𝑠 𝛻llog 𝜋l(𝑎|𝑠)
Likelihood	Ratio	Method
𝐽 𝜋l = m𝜌>
o
m𝜋 𝑎|𝑠 	𝑟 𝑠, 𝑎 	𝑑𝑎	𝑑𝑠
q
𝛻l 𝐽 𝜋l = m𝜌>
o
m𝛻l 𝜋 𝑎|𝑠 	𝑟 𝑠, 𝑎 	𝑑𝑎	𝑑𝑠
q
	
																				=	𝔼@~r,E~>s	 𝛻l log 𝜋l(𝑎|𝑠) 𝑟 𝑠, 𝑎
							≅	
1
𝑀
	 𝛻l log 𝜋l(𝑎|𝑠) 𝑟 𝑠, 𝑎
• サンプリングによって勾配を推定できる!
• パラメータ化された確率分布を微分したいがReparametrization trickが使えないとき最近よく⾒る
◦ Hard Attentionとか
⽬的関数
求めたい policy	gradient
Score	function
と呼ぶらしい
𝜋 𝑎|𝑠 は確率的な⽅策
Likelihood	Ratio	Method
• 結局 :	𝛻l 𝐽 𝜋l 	≅	
4
y
	 𝛻l log 𝜋l(𝑎|𝑠) 𝑟 𝑠, 𝑎
• 𝑟 𝑠, 𝑎
◦ 実際に得られた報酬を利⽤
◦ REINFORCEと呼ばれる
◦ 真の報酬であるのでUnbiasだが、サンプリングなので勾配推定の分散が⼤きい
◦ ⾏動価値関数	𝑄>
	 𝑠, 𝑎 による近似を利⽤
◦ Varianceは下がるが近似なので当然biasが⼤きい。うまいことやる必要
◦ 両⽅使う
◦ Control	Variate
◦ 期待値を求めたいものから解析的に計算できるbaselineを引いて分散を⼩さくする
◦ Baselineに状態価値関数を利⽤し、Advantage	functionを
◦ Advantage	function	𝐴>
𝑠, 𝑎 =		𝑄>
	 𝑠, 𝑎 − 	𝑉>	
𝑠 	≅	r	+	γ	𝑉>
𝑠U
− V>
(s)
Value	Gradient
• ⾏動価値関数		𝑄>	 𝑠, 𝑎 の勾配を直接使って更新したい
◦ 𝑄>
	 𝑠, 𝑎 が⼤きくなる⽅向に	𝑎 を動かそう
◦ Experience	Replayが使える!
• Deterministic	policy	gradient	[Silver	et	al.,	ICML,	2015]
◦ 決定的な⽅策	𝜇l(𝑠) を導⼊し、𝑄|
	 𝑠, 𝜇l(𝑠) を直接 𝜃 で偏微分することで勾配を推定する
◦ 𝛻l 𝑄|
	 𝑠, 𝜇l(𝑠) =	 𝛻E 𝑄|
	 𝑠, 𝑎 ⋅ 𝛻l 𝜇l	
◦ DDPG	(Deep	deterministic	policy	gradient)	[Lillicrap et	al., ICLR,	2016]は 𝑄, 𝜇をCNNでモデル化したもの
• Learning	Continuous	Control	Policies	by	Stochastic	Value	Gradients
◦ Reparametrization TrickによりStochastic	policy	にも適⽤可能に
Policy	Gradient	Method	~summary~
• Likelihood	ratio
◦ Bias	⼩・Variance⼤
◦ On-policy
◦ 学習はある程度安定するが、⼤量のデータサンプルが必要
• Value	gradient
◦ Bias	⼤・Variance	⼩
◦ Off-policy	
◦ Experience	Replay	が使えるためサンプル efficient	だが、ハイパラ調整が闇
Design	of	Reward
• ゴールまで⾏きなさいという問題
◦ 例 1)ゴールに近づいたら (+1),	ゴールで⾼い報酬 (+100)
→ たどり着くまでかなり時間がかかる
◦ 例 2)	ポテンシャルに応じた報酬設定
◦ → ⾼速に学習は進むが、ハイパラ増える、設計⼤変
報酬の設計に関する研究
◦ ⾼速に探索が進むような報酬の⽣成⽅法の研究
◦ Reward	shaping
◦ 徒弟学習
◦ 逆強化学習
Inverse	Reinforcement	Learning
• 強化学習では、与えられる報酬=良さを元に最適な戦略を推定する
• 逆強化学習では、最適な戦略から報酬=良さを推定する
最適な戦略報酬
強化学習
逆強化学習
Recent	DRL	①
Learning	Hand-Eye	Coordination	for	Robotic	Grasping
with	Deep	Learning	and	Large-Scale	Data	Collection	
[Sergey	Levine	et	al.,	2016]
• Googleがロボットアーム14台並列に動かして
物体のグラスピングを学習させてたやつ
• 概要
1. 様々な状況でモーターを動かしてみて、成功したか失敗したかのサンプルを保存
2. 保存したサンプルを利⽤して、Prediction	Network	𝑔 𝐼(, 𝑣( 		{	𝐼(: 視覚情報, 𝑣(: サーボへの命令	}を
supervised-learning
3. サーボへの命令は、サンプリングベースで𝑔 𝐼(, 𝑣( が⾼くなるのを選ぶ
• 強化学習とよく⾔われるが、 self-supervised	learningと呼ばれる
⾃分でデータサンプルを集めて学習する枠組み
Recent	DRL	②
End-to-End	Training	of	Deep	VisuomotorPolicies
[Sergey	Levine,	2015]	
• UCバークレーのロボットが最初はランダムだが、
だんだん鍵⽳に鍵させるようになるやつ
• Guided	Policy	Search,	iLQG
◦ Policy	based
◦ TD学習とかとは全く異なるアプローチ
◦ 近傍のダイナミクスを線形近似し、ローカルに最適解を解析的に解く、制御理論という感じ
◦ 強化学習⾃体広い意味を持つのでこれも含まれる
Recent	DRL	③
Asynchronous	Methods	for	Deep	Reinforcement	Learning
[Mnih et	al.,	2016]
• ⾮同期に多数のエージェントを⾛らせてパラメータを
同時に更新することでサンプル数を確保すると同時に
⼊⼒の相関をなくすことができる
→ Experience	Replayを使う必要がない
→ on-policyなRLアルゴリズムが使⽤可能!!
• Advantage	functionを⽤いたActor-Criticを⾮同期で⾛らせた
結果、CPUで1⽇たった時点で他⼿法を⼤きく上回る
(A3C	:	Asynchronous	Advantage	Actor	Critic)
Recent	DRL	④
Continuous	Deep	Q-Learning	with	Model-based	Acceleration	(NAF)
• Q-learningを連続空間に適⽤可能に
◦ Advantage部分とState-Valueに分け、Aの⽅を⼆次形式の形で推定することでarg max
‚
𝑄 𝑠, 𝑢 を計算
Normalized	Advantage	Function
• iLQGのように近傍のダイナミクスを推定することで
Model-basedの⼿法を取り⼊れたい
◦ Imagination	rollout
Recent	DRL	⑤
Trust	Region	Policy	Optimization	(TRPO)
• Policy	based
• 𝐷…† 𝜃‡ˆ‰ , 𝜃 ≤ 𝛿 (Trust	Region	)という範囲において、サンプリングによって計算された期待コストを
最⼩化する𝜃を制約付き最適化問題を解くことで求め逐次的に更新
	
• サンプリング法	
◦ Single	Path	:	𝑠<から𝜋lに従い軌跡を⽣成する⽅法	
◦ Vine:	ランダムシミュレーションにより⽣成する⽅法	
	
• 学習の流れ	
◦ Single	pathかVineでサンプル(軌跡と報酬)を集める	
◦ サンプルから制約条件と⽬的関数を構築	
◦ 制約付き最適化問題を解く	
◦ 中⾝はよくわからなかったです
Recent	DRL	⑥
Q-prop
• Actor-Critic
• Off-policyに学習するcriticをbaselineとして利⽤して、
On-policyなpolicy	gradientをsample	efficient	かつunbiasに利⽤する⽅法
おまけ
Connecting	Generative	Adversarial	Networks	and	Actor-Critic	Methods	[DeepMind,	2016]
• GANとActor-Criticの関係
◦ GANは、Actorが報酬に影響を与えない状況下でのActor-Criticと同じなのでは?
• それぞれで使⽤される学習テクニックを⽐較、お互いに利⽤できないか
◦ GAN
◦ Freezing	learning,	 Label	smoothing,	 Historical	averaging,	Minibatch discrimination,	 BN
◦ Actor-Critic
◦ Experience	Replay,	Target	networks,	Entropy	regularization,	Compatibility?
Reference
• David	silverの講義資料
◦ http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching_files/intro_RL.pdf
• Policy	search資料
◦ http://icml.cc/2015/tutorials//PolicySearch.pdf
Recent	Technique
• Prioritized	Experience	Replay
◦ 重要な経験サンプル(TD-errorが⼤きかったもの)を優先的にサンプルするExperience	Replay
• Deep	Reinforcement	Learning	with	Double	Q-Learning
◦ DQNのDouble	Q-learning版
Applications	of	RL
• ヘリコプター制御 http://heli.stanford.edu/
◦ ⼈間のエキスパートの技を学習させるために、逆強化学習 (Inverse	Reinforcement	Learning)を利⽤
• Windows	ヘルプ⽂書理解 http://groups.csail.mit.edu/rbg/code/rl/
◦ Windows	のヘルプに出てくる操作⼿順の⾃然⾔語に対応する操作を学習します。従来であれば教師付き学習の枠組で研究されて
いた問題ですが「指⽰通りの操作が不可能」な場合に対して負の報酬を割り当て、どこまで指⽰に従った操作ができるかを強化
学習によって学習することで、
教師データがない、あるいは少量しかない場合でも、精度の⾼い学習ができることを⽰しました。
• ⾳声対話システム http://mi.eng.cam.ac.uk/research/dialogue/
◦ Cambridge	⼤の Young	らが開発した⾳声対話システムでは、ユーザーがシステムにしてほしい要求を隠れた状態と考え、ユーザー
の発話内容を観測することで要求を明らかして対応する POMDP	問題と考えることで、最も適切な応答を学習すします。ノイズに
よって発話内容が正しく観測できない場合でも、従来のシステムに⽐べはるかに良い応答が実現できることが⽰されており、今
後の実⽤化が期待されます。
• 構⽂解析 http://www.umiacs.umd.edu/~hal/SPIRL/10-07-acl-spirl.pdf
◦ 構⽂解析を⾼速化するためには、すべての可能性を探索するのではなく、より⽂らしくなるような候補を先に探索することが有
効です。
解析途中にどの選択肢を選ぶかを⾏動と考え、逆強化学習の枠組で解くことで、この⾼速化が達成できることを⽰しました。
同様のテクニックは、⾃然⾔語処理に限らず、探索問題全般に適⽤可能であり、⾯⽩いアプローチとして注⽬を集めています。
• 滞納債務の取り⽴て(論⽂ http://www.prem-melville.com/publications/constrained-reinforcement-learning-kdd2010.pdf、
講演動画 http://videolectures.net/kdd2010_abe_odcucrl/)

More Related Content

What's hot

[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Shohei Taniguchi
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~Kenshi Abe
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習Yusuke Nakata
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習Shota Ishikawa
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元Shogo Muramatsu
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018佑 甲野
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習Mitsuhisa Ohta
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 

What's hot (20)

[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
多人数不完全情報ゲームにおけるAI ~ポーカーと麻雀を例として~
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元スパースモデリングによる多次元信号・画像復元
スパースモデリングによる多次元信号・画像復元
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018Reinforcement Learning @ NeurIPS2018
Reinforcement Learning @ NeurIPS2018
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 

Viewers also liked

Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C modelWEBFARMER. ltd.
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話mooopan
 
強化学習その4
強化学習その4強化学習その4
強化学習その4nishio
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimizationmooopan
 
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement LearningDeep Learning JP
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + αKatsuki Ohto
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説suckgeun lee
 
Python 特徴抽出プラグイン
Python 特徴抽出プラグインPython 特徴抽出プラグイン
Python 特徴抽出プラグインJubatusOfficial
 
かまってちゃん小町
かまってちゃん小町かまってちゃん小町
かまってちゃん小町JubatusOfficial
 
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみたJubatusOfficial
 
発言小町からのプロファイリング
発言小町からのプロファイリング発言小町からのプロファイリング
発言小町からのプロファイリングJubatusOfficial
 
単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)JubatusOfficial
 
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する新聞から今年の漢字を予測する
新聞から今年の漢字を予測するJubatusOfficial
 
Jubatus解説本の紹介
Jubatus解説本の紹介Jubatus解説本の紹介
Jubatus解説本の紹介JubatusOfficial
 

Viewers also liked (20)

Introduction to A3C model
Introduction to A3C modelIntroduction to A3C model
Introduction to A3C model
 
A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
 
【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016【強化学習】Montezuma's Revenge @ NIPS2016
【強化学習】Montezuma's Revenge @ NIPS2016
 
Trust Region Policy Optimization
Trust Region Policy OptimizationTrust Region Policy Optimization
Trust Region Policy Optimization
 
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
 
大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α大富豪に対する機械学習の適用 + α
大富豪に対する機械学習の適用 + α
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
AlphaGo Zero 解説
AlphaGo Zero 解説AlphaGo Zero 解説
AlphaGo Zero 解説
 
A3C解説
A3C解説A3C解説
A3C解説
 
Python 特徴抽出プラグイン
Python 特徴抽出プラグインPython 特徴抽出プラグイン
Python 特徴抽出プラグイン
 
かまってちゃん小町
かまってちゃん小町かまってちゃん小町
かまってちゃん小町
 
小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた小町のレス数が予測できるか試してみた
小町のレス数が予測できるか試してみた
 
発言小町からのプロファイリング
発言小町からのプロファイリング発言小町からのプロファイリング
発言小町からのプロファイリング
 
Jubatus 1.0 の紹介
Jubatus 1.0 の紹介Jubatus 1.0 の紹介
Jubatus 1.0 の紹介
 
Jubakitの解説
Jubakitの解説Jubakitの解説
Jubakitの解説
 
単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)単語コレクター(文章自動校正器)
単語コレクター(文章自動校正器)
 
新聞から今年の漢字を予測する
新聞から今年の漢字を予測する新聞から今年の漢字を予測する
新聞から今年の漢字を予測する
 
Jubatus解説本の紹介
Jubatus解説本の紹介Jubatus解説本の紹介
Jubatus解説本の紹介
 
新機能紹介 1.0.6
新機能紹介 1.0.6新機能紹介 1.0.6
新機能紹介 1.0.6
 

Similar to [Dl輪読会]introduction of reinforcement learning

NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎Hirotaka Hachiya
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingYasunori Ozaki
 
強化学習メモスライド
強化学習メモスライド強化学習メモスライド
強化学習メモスライドtwiponta_suzuki
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法kenyanonaka
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5sleepy_yoshi
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回Kohei Wakamatsu
 
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)TakaakiYonekura
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試みSusumuOTA
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMMMorpho, Inc.
 
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic valueUniversity CodeSprint 4 - Magic value
University CodeSprint 4 - Magic valuesatanic
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するsleepy_yoshi
 
Blow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel systemBlow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel systemTakahiro Hashira
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradientsmooopan
 

Similar to [Dl輪読会]introduction of reinforcement learning (20)

NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
強化学習メモスライド
強化学習メモスライド強化学習メモスライド
強化学習メモスライド
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
 
PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5PRML復々習レーン#10 7.1.3-7.1.5
PRML復々習レーン#10 7.1.3-7.1.5
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
第4回数理モデル勉強会(日本植物学会第84回大会関連集会)
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
University CodeSprint 4 - Magic value
University CodeSprint 4 - Magic valueUniversity CodeSprint 4 - Magic value
University CodeSprint 4 - Magic value
 
SMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装するSMO徹底入門 - SVMをちゃんと実装する
SMO徹底入門 - SVMをちゃんと実装する
 
Blow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel systemBlow up in a degenerate keller--segel system
Blow up in a degenerate keller--segel system
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
Deeplearning4.4 takmin
Deeplearning4.4 takminDeeplearning4.4 takmin
Deeplearning4.4 takmin
 
Learning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value GradientsLearning Continuous Control Policies by Stochastic Value Gradients
Learning Continuous Control Policies by Stochastic Value Gradients
 
DeepLoco
DeepLocoDeepLoco
DeepLoco
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Recently uploaded

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 

Recently uploaded (10)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

[Dl輪読会]introduction of reinforcement learning