ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
某大学で非常勤講師を行った際の講義資料。最適化を中心としたオペレーションズ・リサーチのモデルを示します。
Operations Research lecture presentation document. Decision optimization modelings for business application are explained.
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
6/10 (木) 14:30~15:00
講師:Huy H. Nguyen 氏(総合研究大学院大学/国立情報学研究所)
概要: Advances in machine learning and their interference with computer graphics allow us to easily generate high-quality images and videos. State-of-the-art manipulation methods enable the real-time manipulation of videos obtained from social networks. It is also possible to generate videos from a single portrait image. By combining these methods with speech synthesis, attackers can create a realistic video of some person saying something that they never said and distribute it on the internet. This results in loosing social trust, making confusion, and harming people’s reputation. Several countermeasures have been proposed to tackle this problem, from using hand-crafted features to using convolutional neural network. Some countermeasures use images as input and other leverage temporal information in videos. Their output could be binary (bona fide or fake) or muti-class (deepfake detection), or segmentation masks (manipulation localization). Since deepfake methods evolve rapidly, dealing with unseen ones is still a challenging problem. Some solutions have been proposed, however, this problem is not completely solved. In this talk, I will provide an overview on both deepfake generation and deepfake detection/localization. I will mainly focus on image and video domain and also introduce some audiovisual-based methods on both sides. Some open discussions and future directions are also included.
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
4. 4
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ
モデルフリー
モデルベース(ゲームAI)
Monte-Carlo
Tree Search
Alpha o Alpha o ero Alpha ero
Alpha ol AlphaStar
M ero
※厳密には
モデルフリー
※厳密には
モデルフリーが導入されている
信頼区間法に基づく方策改善
並列化
LSTMの導入
並列化
近接勾配法に基づく方策改善
決定的方策勾配への変更
Off-Policy化
深層学習の導入
並列化・Advantageの導入
補助タスクの導入
データ収集と学習の分割
方策のエントロピー最大化による
探索の効率化
Off-Policy化
Experience Replay
複数のtarget networkの導入
価値評価のための
別モデル導入
Advantageの導入
報酬の期待値を計算
ノイズ付与による
探索の効率化
サンプリングの優先順位を導入
深層学習の導入
デモンストレーションによる事前学習
全てを統合 並列化 LSTMの
導入
内部報酬による
探索の効率化
2つを統合
内部報酬と
並列化
Meta-Controller
13. 13
強化学習の用語(2)
• 行動価値 (Q値) :エージェントの行動の良さを表す数値・指標
(ゴールへ近づく方向への移動では+10,離れる方向への移動は-1 )
• 状態価値 (V値):状態がどの程度良いかを表す数値・指標
(ゴール付近のマス(状態)では+8,壁のマスでは-10 )
• エピソード:行動の開始 ~ 終了までの一連の動作
(スタートからゴールに到達するまで)
(スタートから壁にぶつかって終了するまで)
G G
S S
G G
S S
Q( ↓ ) = +10 Q( ← ) = -1
V = +8 V = -10
G G
S S
スタート ~ ゴール
(目的を達成して終了)
スタート ~ 壁に衝突
(目的を達成せず終了)
19. 19
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ
モデルフリー
モデルベース(ゲームAI)
Monte-Carlo
Tree Search
Alpha o Alpha o ero Alpha ero
Alpha ol AlphaStar
M ero
※厳密には
モデルフリー
※厳密には
モデルフリーが導入されている
信頼区間法に基づく方策改善
並列化
LSTMの導入
並列化
近接勾配法に基づく方策改善
決定的方策勾配への変更
Off-Policy化
深層学習の導入
並列化・Advantageの導入
補助タスクの導入
データ収集と学習の分割
方策のエントロピー最大化による
探索の効率化
Off-Policy化
Experience Replay
複数のtarget networkの導入
価値評価のための
別モデル導入
Advantageの導入
報酬の期待値を計算
ノイズ付与による
探索の効率化
サンプリングの優先順位を導入
深層学習の導入
デモンストレーションによる事前学習
全てを統合 並列化 LSTMの
導入
内部報酬による
探索の効率化
2つを統合
内部報酬と
並列化
Meta-Controller
22. 22
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ 価値ベース・方策ベース ~
モデルフリー
今回のチュートリアルでは,価値ベースと方策ベースの分類に着目して順番に説明していきます
24. 24
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ 価値ベース・Q学習とSARSA ~
• 価値ベース手法の基本的な考え方
• 探索の方法(ε-greedy法)
• Off-PolicyとOn-Policy
- Q学習とSARSAの違い
32. 32
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ 価値ベース・Q学習とSARSA ~
モデルフリー
モデルベース(ゲームAI)
Monte-Carlo
Tree Search
Alpha o Alpha o ero Alpha ero
Alpha ol AlphaStar
M ero
※厳密には
モデルフリー
On-Policy Off-Policy
※厳密には
強化学習が導入されている
33. 33
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ Deep Q-Networkの登場 ~
• ニューラルネットワークによるQ関数(Qテーブル)の関数近似
• Deep Q-Network
• 深層強化学習の難しいところ
- 難しさを改善する基本の工夫
50. 50
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ 分散強化学習と効率的な経験の活用 ~
• 分散強化学習
- GORILA
• Prioritized Experience Replay
• それらを組み合わせた手法
- Ape-X
56. 56
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ 内部報酬の活用と人間を超えたスコアの達成 ~
• 内部報酬の考え方
• 内部報酬を導入した手法
- ICM
- RND
- NGU
- Agent57
63. 63
Never Give Up (NGU) [Baida+, 2020] (1)
• Life-long novelty module
- RNDと同じ
- 生涯(学習期間全体)で新しい状況に出会うと高い内部報酬を出力
• Episodic novelty module
- 1エピソード内で訪れた状態をエピソード記憶(Episodic memory)に保持
- エピソード内で新しい状況に出会うと高い内部報酬を出力
• 各モジュールからの値を以下の式で統合
• 外部報酬𝑟"
)
と内部報酬𝑟"
(
の和を全体の報酬とする
embedding network
RND predi tion network
RND r ndom network
epi odi memor
k ne re t
neig bor
ontro b e t te
epi odi no e t
mod e
i e ong no e t
mod e
m tip i ti e
mod tion
𝑟!
,
= 𝑟!
-.,/01-
× min(max 𝛼!, 1 , 𝐿)
𝑟! = 𝑟!
-
+ 𝛽𝑟!
,
※ 𝛽:内部報酬の重み
71. 71
GORILA R D
DQ D
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
強化学習アルゴリズムマップ ~ 方策ベースの強化学習 ~
• ここで学ぶこと
- 方策ベースの強化学習の考え方
• Policy Gradient
• REINFORCE
• TRPO
• PPO
86. 86
CVタスクへの応用: Data Augmentation
• AutoAugment: Learning Augmentation Policies from Data [Cubuk+, 2018]
- 最適なAugmentationを強化学習で選択
• 従来は手動で設計
- 認識性能が大きく向上(2018年当時にSoTA)
元画像
We formulate the problem of finding the best augment
In our search space, a policy consists of 5 sub-policies
operations to be applied in sequence, each operation is al
the probability of applying the operation, and 2) the mag
Figure 1 shows an example of a policy with 5-sub-polici
specifies a sequential application of ShearX followed by
is 0.9, and when applied, has a magnitude of 7 out of 10.
The Invert operation does not use the magnitude informat
applied in the specified order.
3 AutoAugment
We formulate the problem of finding the best augmentation policy as a discrete sear
In our search space, a policy consists of 5 sub-policies, each sub-policy consisting o
operations to be applied in sequence, each operation is also associated with two hyperpa
the probability of applying the operation, and 2) the magnitude of the operation.
Figure 1 shows an example of a policy with 5-sub-policies in our search space. The firs
specifies a sequential application of ShearX followed by Invert. The probability of appl
is 0.9, and when applied, has a magnitude of 7 out of 10. We then apply Invert with proba
The Invert operation does not use the magnitude information. We emphasize that these o
applied in the specified order.
3 AutoAugment
We formulate the problem of finding the best augmentation policy as a d
In our search space, a policy consists of 5 sub-policies, each sub-policy c
operations to be applied in sequence, each operation is also associated with
the probability of applying the operation, and 2) the magnitude of the opera
Figure 1 shows an example of a policy with 5-sub-policies in our search sp
specifies a sequential application of ShearX followed by Invert. The probab
is 0.9, and when applied, has a magnitude of 7 out of 10. We then apply Inve
The Invert operation does not use the magnitude information. We emphasize
applied in the specified order.
3 AutoAugment
We formulate the problem of finding the best augmentation policy as a d
In our search space, a policy consists of 5 sub-policies, each sub-policy c
operations to be applied in sequence, each operation is also associated with t
the probability of applying the operation, and 2) the magnitude of the operat
Figure 1 shows an example of a policy with 5-sub-policies in our search spa
specifies a sequential application of ShearX followed by Invert. The probabi
is 0.9, and when applied, has a magnitude of 7 out of 10. We then apply Inver
The Invert operation does not use the magnitude information. We emphasize t
applied in the specified order.
3 AutoAugment
We formulate the problem of finding the best augmentation policy as a discrete search problem.
In our search space, a policy consists of 5 sub-policies, each sub-policy consisting of two image
operations to be applied in sequence, each operation is also associated with two hyperparameters: 1)
the probability of applying the operation, and 2) the magnitude of the operation.
Figure 1 shows an example of a policy with 5-sub-policies in our search space. The first sub-policy
specifies a sequential application of ShearX followed by Invert. The probability of applying ShearX
is 0.9, and when applied, has a magnitude of 7 out of 10. We then apply Invert with probability of 0.8.
The Invert operation does not use the magnitude information. We emphasize that these operations are
applied in the specified order.
強化学習で自動的にAugmentationした画像
101. 4
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ DQNの発展手法 ~
• 基本のDQNを改良した手法
- Double DQN
- Dueling DQN
- Categorical DQN
- Rainbow
113. 16
Rainbow [Hessel+, 2017](2)
• 従来手法を圧倒
- DQNのスコアを7M 回で上回る
- 他の手法の中で一番良いDistributional (Categorical) DQNも44M 回で上回る
Rainbow: Combining Improvements in Deep Reinforcement Learning
Matteo Hessel
DeepMind
Joseph Modayil
DeepMind
Hado van Hasselt
DeepMind
Tom Schaul
DeepMind
Georg Ostrovski
DeepMind
Will Dabney
DeepMind
Dan Horgan
DeepMind
Bilal Piot
DeepMind
Mohammad Azar
DeepMind
David Silver
DeepMind
Abstract
The deep reinforcement learning community has made sev-
eral independent improvements to the DQN algorithm. How-
ever, it is unclear which of these extensions are complemen-
tary and can be fruitfully combined. This paper examines
six extensions to the DQN algorithm and empirically studies
their combination. Our experiments show that the combina-
tion provides state-of-the-art performance on the Atari 2600
benchmark, both in terms of data efficiency and final perfor-
mance. We also provide results from a detailed ablation study
that shows the contribution of each component to overall per-
formance.
Introduction
The many recent successes in scaling reinforcement learn-
ing (RL) to complex sequential decision-making problems
were kick-started by the Deep Q-Networks algorithm (DQN;
Mnih et al. 2013, 2015). Its combination of Q-learning with
convolutional neural networks and experience replay en-
abled it to learn, from raw pixels, how to play many Atari
2298v1
[cs.AI]
6
Oct
2017
学習回数 [millions]
ゲームのスコア(人間のスコアが100%)
114. 17
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ DQNの発展手法 ~
• 再帰型ニューラルネットワークを導入した手法
- DRQN
- R2D2
115. 18
Deep Recurrent Q-Network (DRQN) [Hausknecht and Stone, 2015]
• 通常のDQN
- 直近4フレームの情報をまとめて入力
FC
状態価値 𝑄(𝑠, 𝑎)
CNN
• DRQN
- 状態の時系列変化を考慮するためにLSTMを導入
𝑡 − 3
𝑡 − 2
𝑡 − 1
𝑡
LSTM
CNN
FC
LSTM
CNN
FC
LSTM
CNN
FC
LSTM
CNN
FC
状態価値 𝑄(𝑠, 𝑎)
…
𝑡
𝑡 − 1
𝑡 − 2
𝑡 − 𝑇
そこまで大きな性能改善はないが,RNN(LSTM)を取り入れた最初の手法
117. 20
Q-Learning
Double Q-Learning
Deep Learning
Deep
Q-Network
Double DQN
GORILA
DRQN
Prioritized
Experience Replay
Dueling DQN
Categorical DQN
Noi yNet
Rainbow APE- NG
R D
R D
DQ D
IC
P eudo
Count-ba ed RND
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
価値ベース
強化学習アルゴリズムマップ ~ デモンストレーションの活用 ~
• ここで学ぶこと
- デモンストレーションデータを用いた強化学習の考え方
• DQfD
• R2D3
123. 26
Double Q-Learning Double DQN
GORILA
DRQN
Prioritized
Experience Replay Rainbow APE- NG
R D
R D
DQ D
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
強化学習アルゴリズムマップ ~ 価値+方策ベース ~
• 価値+方策ベースの強化学習の考え方
- Actor-Critic
- A3C
- IMPALA
131. 34
UNREAL [Jaderberg, et al., 2016](2)
• A3Cをベースに補助タスクを同時に学習
- Pixel Control … 画像の画素値が大きく変動する動きを学習
- Value Function Replay … 過去の経験をシャッフルして学習
- Reward Prediction … 現在の状態から報酬を予測
132. 35
Double Q-Learning Double DQN
GORILA
DRQN
Prioritized
Experience Replay Rainbow APE- NG
R D
R D
DQ D
Agent
AR A
Actor-Critic A C NREAL
ACER I PALA
AC
D
RPO PPO
Policy Gradient
REIN ORCE
DPG DDPG
価値 + 方策
(Actor-Cr t c
方策ベース
強化学習アルゴリズムマップ ~ 決定的方策勾配に基づく手法 ~
• 確率的方策勾配と決定的方策勾配の違い
- DPG
- DDPG
- TD3
- Soft Actor-Critic