This document introduces the deep reinforcement learning model 'A3C' by Japanese.
Original literature is "Asynchronous Methods for Deep Reinforcement Learning" written by V. Mnih, et. al.
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
Introduction of Deep Reinforcement Learning, which was presented at domestic NLP conference.
言語処理学会第24回年次大会(NLP2018) での講演資料です。
http://www.anlp.jp/nlp2018/#tutorial
Healthy Competition: How Adversarial Reasoning is Leading the Next Wave of In...John Liu
In recent years, machine learning and reinforcement learning algorithms have revolutionized how we tackle problems in pattern recognition, inference and prediction. These learning algorithms are inherently stochastic in nature and collaborative by design. While powerful, they often lead to models that exhibit fragility in noisy real-world domains. A new generation of learning algorithms are evolving to augment robustness by embracing adversarial reasoning. In place of cooperative learning, these algorithms espouse game theoretic concepts of competition, deception, and Nash equilibria. In this talk, John will examine the role of adversarial reasoning in problem solving. Attendees will learn about the principles underpinning adversarial reasoning and their relevance to the new generation of machine learning algorithms including actor-critic A3C methods, generative adversarial networks, and variational autoencoders. In the end, the objective of this talk is to provide an intuitive understanding of the coming learning algorithms that can surmise intent, detect and practice deception, and formulate long-range winning strategies to real world problems.
This document introduce the literature 'Connecting Generative Adversarial Networks and Actor-Critic Methods' written by D. Pfau, O. Vinyals. This is used in the event named 'The meeting where we discuss DRL model or else'.
This document introduce the literature 'Deep Compression' written by S. Han, et al. You can easily understand that literature by reading this. Only Japanese.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
2. 今回取り上げるのはこれ
[1] Volodymyr Mnih, Adria` Puigdome`nech Badia, Mehdi
Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David
Silver, and Koray Kavukcuoglu. Asynchronous methods for
deep reinforcement learning. In Proceedings of the 33rd
International Conference on Machine Learning (ICML), pp.
1928–1937, 2016.
Asynchronousな手法によりreplay memoryを廃し、DQNより
高速かつ高精度な学習を達成した!
4. 強化学習の基本①
Li θi( )= E r +γ max
a'
Q s',a';θi−1( )−Q s,a;θi( )( )
2
1-step Q学習の損失関数
actor-criticにおける
目的関数の勾配
1-step Sarsaの損失関数 Li θi( )= E r +γQ s',a';θi−1( )−Q s,a;θi( )( )
2
n-step Q学習の損失関数 Li θi( )= E γk
rt+k
k=0
n
∑ + maxγ
a'
n
Q s',a';θi−1( )−Q s,a;θi( )
⎛
⎝
⎜
⎞
⎠
⎟
2
∇θ J θ( )= E ∇θ logπ at | st;θ( ) Rt −Vπ
st( )( )⎡
⎣
⎤
⎦
r
γ Q s,a;θi( )
Vπ
st( )
:割引率
:報酬
:状態 s で行動 a を取る場合の行動価値関数
:状態 s の価値関数
5. 強化学習の基本②
Li θi( )= E r +γ max
a'
Q s',a';θi−1( )−Q s,a;θi( )( )
2
1-step Q学習の損失関数
これがDQNの場合
L θ( )= Es,a,r,s'≈D r +γ max
a'
Q s',a';θ−
( )−Q s,a;θ( )( )
2
DQNの損失関数
:experience replay memory
:ターゲット・ネットワーク
D
θ−
12. Gorilaのしくみ
A. Nair, et al “Massively parallel methods for deep reinforcement learning.”
In ICML Deep learning Workshop. 2015.
13. Gorilaのしくみ ver.1
共有のreplay memoryを使用
Environment Q Network
Shard 1 Shard 2 Shard K
Q Network
Target
Q Network
DQN Loss
Parameter Server
Environment Q Network
Q Network
Target
Q Network
DQN Loss
・
・
・
ActorのcomputerとLearnerの
computer1つずつで1セットとする
Actor Learner
全部でNセット
replay memoryは1
つを共有する
Replay
Memory
14. Gorilaのしくみ ver.2(bundled mode)
個別のreplay memoryを使用
Environment Q Network
Shard 1 Shard 2 Shard K
Q Network
Target
Q Network
DQN Loss
Replay
Memory
Parameter Server
Environment Q Network
Q Network
Target
Q Network
DQN Loss
Replay
Memory
・
・
・
ActorのcomputerとLearnerの
computer1つずつで1セットとする
Actor Learner
全部でNセット
replay memoryはそれぞれ
のcomputerに配置
15. Gorila(bundled mode)から
asynchronousなDQNへの変更点①
Environment Q Network
Shard 1 Shard 2 Shard K
Q Network
Target
Q Network
DQN Loss
Replay
Memory
Parameter Server
Environment Q Network
Q Network
Target
Q Network
DQN Loss
Replay
Memory
・
・
・
CPU上の1つのスレッドに対応
Actor Learner
replay memoryを廃止
16. Gorila(bundled mode)から
asynchronousなDQNへの変更点②
Environment Q Network
Shard 1 Shard 2 Shard K
Q Network
Target
Q Network
DQN Loss
Parameter Server
Environment Q Network
Q Network
Target
Q Network
DQN Loss
・
・
・
Actor Learner
代わりに勾配を溜め込む
gradients
gradients
17. Gorila(bundled mode)から
asynchronousなDQNへの変更点③
Environment Q Network
Shard 1 Shard 2 Shard K
Q Network
Target
Q Network
DQN Loss
Parameter Server for Q-Network
Environment Q Network
Q Network
Target
Q Network
DQN Loss
・
・
・
Actor Learner
gradients
gradients
Shard 1 Shard 2 Shard K
Parameter Server for Target Q-Network
Target Q-Network用のserverを作る
18. Shard 1 Shard 2 Shard K
Parameter Server for Q-Network
Shard 1 Shard 2 Shard K
Parameter Server for Target Q-Network
AsynchronousなDQNの流れ①
Environment Q Network
Q Network
Target
Q Network
DQN Loss
Environment Q Network
Q Network
Target
Q Network
DQN Loss
・
・
・
Actor Learner
θをコピー をコピー
gradients
gradients
θ−
19. Shard 1 Shard 2 Shard K
Parameter Server for Q-Network
Shard 1 Shard 2 Shard K
Parameter Server for Target Q-Network
AsynchronousなDQNの流れ②
Environment Q Network
Q Network
Target
Q Network
DQN Loss gradients
Environment Q Network
Q Network
Target
Q Network
DQN Loss
・
・
・
Actor Learner
状態 s で行動 a をとり、s’ や r を観測
gradients
20. Shard 1 Shard 2 Shard K
Parameter Server for Q-Network
Shard 1 Shard 2 Shard K
Parameter Server for Target Q-Network
AsynchronousなDQNの流れ③
Environment Q Network
Q Network
Target
Q Network
DQN Loss gradients
Environment Q Network
Q Network
Target
Q Network
DQN Loss
・
・
・
Actor Learner
gradients
L θ( )= Es,a,r,s'≈D r +γ max
a'
Q s',a';θ−
( )−Q s,a;θ( )( )
2
Lossを計算
21. Shard 1 Shard 2 Shard K
Parameter Server for Q-Network
Shard 1 Shard 2 Shard K
Parameter Server for Target Q-Network
AsynchronousなDQNの流れ④
Environment Q Network
Q Network
Target
Q Network
DQN Loss gradients
Environment Q Network
Q Network
Target
Q Network
DQN Loss
・
・
・
Actor Learner
gradients
勾配を溜め込む dθ ← dθ +
∂L θ( )
∂θ
22. Shard 1 Shard 2 Shard K
Parameter Server for Q-Network
Shard 1 Shard 2 Shard K
Parameter Server for Target Q-Network
AsynchronousなDQNの流れ⑤
Environment Q Network
Q Network
Target
Q Network
DQN Loss gradients
Environment Q Network
Q Network
Target
Q Network
DQN Loss
・
・
・
Actor Learner
gradients
定期的に勾配の積算値 を送り学習する dθ