SlideShare a Scribd company logo
1 of 28
Download to read offline
DEEP LEARNING JP
[DL Papers]
Fujiki Nakamura
Playing FPS Games with Deep Reinforcement Learning
http://deeplearning.jp/
- 書誌情報
- ViZDoom と Visual Doom AI Competition
- review Deep Q-Networks
- MDP/POMDP
- POMDP における RL agent
- Arnold model
- Experiments, Results, Conclusion
- Bonus
- Learning to Act by Predicting the Future (DFP)
- UNREAL
- RL Framework “Coach”
- References
content
2
- �出� arXiv on 18 Sep 2016.
- AAAI 2017 accepted paper.
- Guillaume Lample, Devendra Singh Chaplot
- CMU �人た�.
- Visual Doom AI Competition 2016 で2位���を収めたモデル.
- チーム Terminators による Arnold という bot.
- Visual Doom AI Competition 2017 で�1位.
書誌情報
3
Visual Doom AI Competition
4
- FPS (First Person Shooting) Game を題�にした強化学習�コン�テ�シ�ン.
- ViZDoom [Kempka+ 2016] というプラットフォームが舞台.
- 参�チーム��自が��した ViZDoom bot を競い合わせる.
- 2016年�コン�で� Terminators チーム Arnold � full deathmatch ��� [YouTube]
basic.
�対���に出�する敵を倒す.
横移動と射撃.
Defend the Center.
�����にいて,�りに出�する敵を倒す .
回転と射撃.
ViZDoom
5
コン�テ�シ�ン��にもいくつか�シ�リ�が用意されている cf. ViZDoom Homepage
health gathering.
health pack を回収しより長く生き延びる.
����により�定�期で,
また毒薬瓶に触れることで health を失う.
- 方方策策 (policy)
- 状態 s で�行動 a ��び方.π : S ↦ A
- 確率的方策 π(a|s) であることもし�し�.
- 収収益益 (Return)
- を最大化したい.
- �値によって割り引く.
- 行行動動価価値値関関数数 (Q-function)
- 状態 s で行動 a を�び,そ��方策 π に�った�合�期待累積報酬.
Deep Q-Networks (brief review)
6
- 最最適適方方策策 π*
- 期待累積報酬を最大化する方策.
- 最最適適行行動動価価値値関関数数
- Q*(s, a) = Qπ*
(s, a) = maxπ
Qπ
(s, a)
- 最終的に,π(s) = argmaxa
Q*(s, a) として最適方策を得る.
- 最適行動価値 Q* をどうやって求めるか?
- → Bellman 最最適適方方程程式式 (Bellman optimality equation)
- 最適行動価値関数に関する再帰的な関係式.
- 行動価値関数が最適であるため��要����.
Deep Q-Networks (brief review)
7
- 最終的に,以���失関数を最適化する.
- Bellman 最適方程式���と��が�しくなることを��す.
- DQN [Mnih+ 2015] �,以上�強化学習�基本的な�定に�えて,学習をうまく�めるため�
工夫が施されている.
- Experience Replay
- Target Q-Network
- reward clipping
- これら工夫があって�じめて DQN と呼ぶそう.[参考] � p.13.
Deep Q-Networks (brief review)
8
Q ����
= ターゲット
- DQN = Q-function �関数近�に CNN を使い,そ��学習上���な工夫�らした,画像で�
御できる強化学習モデル.
Deep Q-Networks (brief review)
9
�行動� Q値を出力
Mnih et al., 2015
Markov Decision Process
- ママルルココフフ決決定定過過程程 (Markov Decision Process, MDP)
- 環境と agent �インタラクシ�ンを�いた強化学習�問題�定�定式.
- 完全観測 (fully observable)
- 重要な��,���こと����状態��で決まる/決められるということ.
10Reinforcement Learning: An Introduction (Second edition), Sutton et.al.
Markov Decision Process
- [参考] David Silver �生�講義スライ�.ついでに [講義動画]
11
Partially Observable MDP
- agent が環境�状態を完全に観測することができると��らない.
- 完全観測で�なくて,��観測.
- 例え�,以����な例で�,����にかかわら�チーター�状態��化していない
が,��せいで観測��化している.
12
Sergey Levine による講義 CS 294: Deep Reinforcement Learning, Fall 2017 �
Supervised learning and imitation 回�スライ�から��.
Partially Observable MDP
- (例によって) [参考] David Silver �生�講義スライ�
13
st
�も�や直接�観測されない
ot
を代わり受け取る
観測�観測関数Z により決まる
POMDP ��対処
- DQN が得意とする Atari も (よくよく考えれ�) POMDP.
- 以���状態1つで�,Pong や Double Dunk ��ール�速�や Frostbite ����速
���からない.
- DQN で� 4フレームを重�て�ットワークに入力するという�ューリステ�ックな方法で対
処している.
14Hausknecht et al., 2015
- ���フレーム�差�を入力として,速��情報を得る.
- Deep Reinforcement Learning: Pong from Pixels by Andrej Karpathy
- �����モデル�,policy を直接最適化する policy gradient という手法.
- ↔ DQN � Q値を推定する value-based な手法 (policy を��的に���しない)
- Pong をプレイする agent を numpy でスクラッチで書いている.
- チュートリアルとして�価が高い���ですよ�.
POMDP ��対処
15
Deep Recurrent Q-Networks
- DRQN [Hausknecht+ 2015]
- LSTM を使うことで1フレームを
入力としながらも,複数フレーム間
にまたがる情報を統合することが
できる.
- Arnold �基�となるモデル.
16
Arnold model
Game feature augmentation
- 入力画像に映る物体を予測させた (enemy, health pack, weapon, ammo, etc)
- ゲーム�����出をさせることでパフォーマンスが��.
- → CNN � kernel が重要な情報を捉える.
17
game feature あり��合 パフォーマンスが向上
Arnold model
-
18
Arnold model
Divide and conquer
- deathmatch �敵���によって,2つ�フェー�に�けられる.
- action phase : 敵と戦う
- navigation phase : マップを探索し,アイテム・敵を探す
- action network (= DRQN + game feature) が敵���を��.
- 敵がいない or 弾薬がない → navigation network (= DQN)
- それ以外 → action network
19
Training
Reward Shaping
- コン�テ�シ�ン��価�,frag数 (= 敵を殺した数 - 自殺数)
- sparse な�で学習が困難 かつ delayed な�で credit assignment も困難.
- 報酬関数を工夫して,小さな即時報酬を導入,学習を高速化.
- action network
➕ 敵を殺す
➖ 自殺
➕ アイテムを拾う (health, weapon, ammo)
➖ health �低� (敵��撃を受ける, ���上を�く)
➖ 撃って弾薬を失う
- navigation network
➕ アイテムを拾う
➖ ���上を�く
少し➕ 最��ステップから�移動��に�じて 20
Training
Frame Skip
- 結果的に 4 frame skip するとよいことがわかった.
- skip ��同じ行動をリ�ート.学習が高速化.
Sequential updates
- 最低でも 4 history を経てから update するようにした.
21
update 数が多いと サンプル��関が高くなり,よくな
い.
Experiments
Scenarios
- deathmatch
- built-in � Doom bot と対戦.
- 最終スコア� frag数 (= 倒した bot 数 - 自殺数)
- Limited deathmatch
- 訓練とテストで同じマップ.
- 武器���ットランチ�ー��.health pack と弾薬を回収できる.
- Full deathmatch
- 訓練とテストで異なるマップ.
- 武器��ストルから�まる.��武器や health pack, 弾薬を回収できる.
- 汎化性能をチェック.
22
Experiments
Evaluation Metrics
- 基本,K/D (倒した数 / 倒された数)
- �にも倒した数��対数,回収したアイテム数など
Results & Analysis
- デモ video
- navigation network があるとよい (Table 2)
- 武器・アイテムを回収することに貢献.
- 人間を outperform (Table 1)
- game feature �予測�あった�うがよい.
- 敵���予測���と最終スコア��関
23
- recurrence を導入して POMDP に対処した DRQN + game feature で強い ViZDoom bot が
できた.
- ViZDoom AI Competition 2016 結果
- [Chaplot+ 2017]
- frag数的に�2位.
- K/D で��を�いている.
- 2017年�コン�で�1位.
Conclusion
24
Bonus
25
- IntelAct [Dosovitskiy+ 2016]
- Arnold ��敵
- 2016年�コン�で2位� Arnold に圧倒的差をつけて優勝.
- (再掲) Visual Doom AI Competition 2016
- DL輪読会で読まれたことがある [link]
- ��に���的な RL で�なく,教師あり学習.
- health, frag, 弾薬数といった “measurements” ���における値を予測.
- supplementary video, deathmatch
- 著者らによる実装 [GitHub] と RL フレームワーク “Coach” で�実装がある.
- UNREAL [Jaderberg+ 2016] [DeepMind Blog]
- 基本的な RL で�わ�かな教師��を�りに学習している.
- よって,大��データが�要 (サンプル効率❌)
- 補助的な教師なしタスクを同時に学習させることで,問題解決.
- Arnold � game feature 予測と同じ役割.
RL Framework “Coach”
- rllab, OpenAI baselines, ChainerRL, tensorforce ��間.2017年10月にリリース.
- OpenAI Gym, Roboschool, ViZDoom ��環境が使える.
- 最近,CARLA という自動運転シミュレータもサポート.
- agent �ライン�ップ�,DQN, PG, A3C, PPO, etc
- DFP もサポートしている�� Coach だけ!
Bonus
26Reinforcement Learning Coach by Intel より引用
Bonus
27
Robotics だからといって何でも RL 使え�いい�か...? (上���プチ�で�����している )
自動運転にどれだけ RL が関係していく�か�,�人的に��.
References
28
- [Kempka+ 2016]
ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning
- [Mnih+ 2015]
Human-level control through deep reinforcement learning
- [Hausknecht+ 2015]
Deep Recurrent Q-Learning for Partially Observable MDPs
- [Chaplot+ 2017]
Arnold: An Autonomous Agent to Play FPS Games
- [Dosovitskiy+ 2016]
Learning to Act by Predicting the Future
- [Jaderberg+ 2016]
Reinforcement Learning with Unsupervised Auxiliary Tasks
- [Dosovitskiy+ 2017]
CARLA: An Open Urban Driving Simulator

More Related Content

What's hot

What's hot (20)

リンク機構を有するロボットをGazeboで動かす
リンク機構を有するロボットをGazeboで動かすリンク機構を有するロボットをGazeboで動かす
リンク機構を有するロボットをGazeboで動かす
 
第 1 回 Jetson ユーザー勉強会
第 1 回 Jetson ユーザー勉強会第 1 回 Jetson ユーザー勉強会
第 1 回 Jetson ユーザー勉強会
 
Gpu vs fpga
Gpu vs fpgaGpu vs fpga
Gpu vs fpga
 
Ethernetの受信処理
Ethernetの受信処理Ethernetの受信処理
Ethernetの受信処理
 
テスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるなテスト文字列に「うんこ」と入れるな
テスト文字列に「うんこ」と入れるな
 
CUDAプログラミング入門
CUDAプログラミング入門CUDAプログラミング入門
CUDAプログラミング入門
 
10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化10GbE時代のネットワークI/O高速化
10GbE時代のネットワークI/O高速化
 
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
 
Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装Slurmのジョブスケジューリングと実装
Slurmのジョブスケジューリングと実装
 
GPU最適化入門
GPU最適化入門GPU最適化入門
GPU最適化入門
 
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
レコメンドバッチ高速化に向けたSpark/MapReduceの機械学習ライブラリ比較検証
 
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
 
福岡大学における公開用NTPサービス事例(LACNOG2019発表資料日本語版)
福岡大学における公開用NTPサービス事例(LACNOG2019発表資料日本語版)福岡大学における公開用NTPサービス事例(LACNOG2019発表資料日本語版)
福岡大学における公開用NTPサービス事例(LACNOG2019発表資料日本語版)
 
通信対戦ゲームを作った話
通信対戦ゲームを作った話通信対戦ゲームを作った話
通信対戦ゲームを作った話
 
tf,tf2完全理解
tf,tf2完全理解tf,tf2完全理解
tf,tf2完全理解
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説
 

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL Hacks 実装]Playing FPS Games with Deep Reinforcement Learning

  • 1. DEEP LEARNING JP [DL Papers] Fujiki Nakamura Playing FPS Games with Deep Reinforcement Learning http://deeplearning.jp/
  • 2. - 書誌情報 - ViZDoom と Visual Doom AI Competition - review Deep Q-Networks - MDP/POMDP - POMDP における RL agent - Arnold model - Experiments, Results, Conclusion - Bonus - Learning to Act by Predicting the Future (DFP) - UNREAL - RL Framework “Coach” - References content 2
  • 3. - �出� arXiv on 18 Sep 2016. - AAAI 2017 accepted paper. - Guillaume Lample, Devendra Singh Chaplot - CMU �人た�. - Visual Doom AI Competition 2016 で2位���を収めたモデル. - チーム Terminators による Arnold という bot. - Visual Doom AI Competition 2017 で�1位. 書誌情報 3
  • 4. Visual Doom AI Competition 4 - FPS (First Person Shooting) Game を題�にした強化学習�コン�テ�シ�ン. - ViZDoom [Kempka+ 2016] というプラットフォームが舞台. - 参�チーム��自が��した ViZDoom bot を競い合わせる. - 2016年�コン�で� Terminators チーム Arnold � full deathmatch ��� [YouTube]
  • 5. basic. �対���に出�する敵を倒す. 横移動と射撃. Defend the Center. �����にいて,�りに出�する敵を倒す . 回転と射撃. ViZDoom 5 コン�テ�シ�ン��にもいくつか�シ�リ�が用意されている cf. ViZDoom Homepage health gathering. health pack を回収しより長く生き延びる. ����により�定�期で, また毒薬瓶に触れることで health を失う.
  • 6. - 方方策策 (policy) - 状態 s で�行動 a ��び方.π : S ↦ A - 確率的方策 π(a|s) であることもし�し�. - 収収益益 (Return) - を最大化したい. - �値によって割り引く. - 行行動動価価値値関関数数 (Q-function) - 状態 s で行動 a を�び,そ��方策 π に�った�合�期待累積報酬. Deep Q-Networks (brief review) 6
  • 7. - 最最適適方方策策 π* - 期待累積報酬を最大化する方策. - 最最適適行行動動価価値値関関数数 - Q*(s, a) = Qπ* (s, a) = maxπ Qπ (s, a) - 最終的に,π(s) = argmaxa Q*(s, a) として最適方策を得る. - 最適行動価値 Q* をどうやって求めるか? - → Bellman 最最適適方方程程式式 (Bellman optimality equation) - 最適行動価値関数に関する再帰的な関係式. - 行動価値関数が最適であるため��要����. Deep Q-Networks (brief review) 7
  • 8. - 最終的に,以���失関数を最適化する. - Bellman 最適方程式���と��が�しくなることを��す. - DQN [Mnih+ 2015] �,以上�強化学習�基本的な�定に�えて,学習をうまく�めるため� 工夫が施されている. - Experience Replay - Target Q-Network - reward clipping - これら工夫があって�じめて DQN と呼ぶそう.[参考] � p.13. Deep Q-Networks (brief review) 8 Q ���� = ターゲット
  • 9. - DQN = Q-function �関数近�に CNN を使い,そ��学習上���な工夫�らした,画像で� 御できる強化学習モデル. Deep Q-Networks (brief review) 9 �行動� Q値を出力 Mnih et al., 2015
  • 10. Markov Decision Process - ママルルココフフ決決定定過過程程 (Markov Decision Process, MDP) - 環境と agent �インタラクシ�ンを�いた強化学習�問題�定�定式. - 完全観測 (fully observable) - 重要な��,���こと����状態��で決まる/決められるということ. 10Reinforcement Learning: An Introduction (Second edition), Sutton et.al.
  • 11. Markov Decision Process - [参考] David Silver �生�講義スライ�.ついでに [講義動画] 11
  • 12. Partially Observable MDP - agent が環境�状態を完全に観測することができると��らない. - 完全観測で�なくて,��観測. - 例え�,以����な例で�,����にかかわら�チーター�状態��化していない が,��せいで観測��化している. 12 Sergey Levine による講義 CS 294: Deep Reinforcement Learning, Fall 2017 � Supervised learning and imitation 回�スライ�から��.
  • 13. Partially Observable MDP - (例によって) [参考] David Silver �生�講義スライ� 13 st �も�や直接�観測されない ot を代わり受け取る 観測�観測関数Z により決まる
  • 14. POMDP ��対処 - DQN が得意とする Atari も (よくよく考えれ�) POMDP. - 以���状態1つで�,Pong や Double Dunk ��ール�速�や Frostbite ����速 ���からない. - DQN で� 4フレームを重�て�ットワークに入力するという�ューリステ�ックな方法で対 処している. 14Hausknecht et al., 2015
  • 15. - ���フレーム�差�を入力として,速��情報を得る. - Deep Reinforcement Learning: Pong from Pixels by Andrej Karpathy - �����モデル�,policy を直接最適化する policy gradient という手法. - ↔ DQN � Q値を推定する value-based な手法 (policy を��的に���しない) - Pong をプレイする agent を numpy でスクラッチで書いている. - チュートリアルとして�価が高い���ですよ�. POMDP ��対処 15
  • 16. Deep Recurrent Q-Networks - DRQN [Hausknecht+ 2015] - LSTM を使うことで1フレームを 入力としながらも,複数フレーム間 にまたがる情報を統合することが できる. - Arnold �基�となるモデル. 16
  • 17. Arnold model Game feature augmentation - 入力画像に映る物体を予測させた (enemy, health pack, weapon, ammo, etc) - ゲーム�����出をさせることでパフォーマンスが��. - → CNN � kernel が重要な情報を捉える. 17 game feature あり��合 パフォーマンスが向上
  • 19. Arnold model Divide and conquer - deathmatch �敵���によって,2つ�フェー�に�けられる. - action phase : 敵と戦う - navigation phase : マップを探索し,アイテム・敵を探す - action network (= DRQN + game feature) が敵���を��. - 敵がいない or 弾薬がない → navigation network (= DQN) - それ以外 → action network 19
  • 20. Training Reward Shaping - コン�テ�シ�ン��価�,frag数 (= 敵を殺した数 - 自殺数) - sparse な�で学習が困難 かつ delayed な�で credit assignment も困難. - 報酬関数を工夫して,小さな即時報酬を導入,学習を高速化. - action network ➕ 敵を殺す ➖ 自殺 ➕ アイテムを拾う (health, weapon, ammo) ➖ health �低� (敵��撃を受ける, ���上を�く) ➖ 撃って弾薬を失う - navigation network ➕ アイテムを拾う ➖ ���上を�く 少し➕ 最��ステップから�移動��に�じて 20
  • 21. Training Frame Skip - 結果的に 4 frame skip するとよいことがわかった. - skip ��同じ行動をリ�ート.学習が高速化. Sequential updates - 最低でも 4 history を経てから update するようにした. 21 update 数が多いと サンプル��関が高くなり,よくな い.
  • 22. Experiments Scenarios - deathmatch - built-in � Doom bot と対戦. - 最終スコア� frag数 (= 倒した bot 数 - 自殺数) - Limited deathmatch - 訓練とテストで同じマップ. - 武器���ットランチ�ー��.health pack と弾薬を回収できる. - Full deathmatch - 訓練とテストで異なるマップ. - 武器��ストルから�まる.��武器や health pack, 弾薬を回収できる. - 汎化性能をチェック. 22
  • 23. Experiments Evaluation Metrics - 基本,K/D (倒した数 / 倒された数) - �にも倒した数��対数,回収したアイテム数など Results & Analysis - デモ video - navigation network があるとよい (Table 2) - 武器・アイテムを回収することに貢献. - 人間を outperform (Table 1) - game feature �予測�あった�うがよい. - 敵���予測���と最終スコア��関 23
  • 24. - recurrence を導入して POMDP に対処した DRQN + game feature で強い ViZDoom bot が できた. - ViZDoom AI Competition 2016 結果 - [Chaplot+ 2017] - frag数的に�2位. - K/D で��を�いている. - 2017年�コン�で�1位. Conclusion 24
  • 25. Bonus 25 - IntelAct [Dosovitskiy+ 2016] - Arnold ��敵 - 2016年�コン�で2位� Arnold に圧倒的差をつけて優勝. - (再掲) Visual Doom AI Competition 2016 - DL輪読会で読まれたことがある [link] - ��に���的な RL で�なく,教師あり学習. - health, frag, 弾薬数といった “measurements” ���における値を予測. - supplementary video, deathmatch - 著者らによる実装 [GitHub] と RL フレームワーク “Coach” で�実装がある. - UNREAL [Jaderberg+ 2016] [DeepMind Blog] - 基本的な RL で�わ�かな教師��を�りに学習している. - よって,大��データが�要 (サンプル効率❌) - 補助的な教師なしタスクを同時に学習させることで,問題解決. - Arnold � game feature 予測と同じ役割.
  • 26. RL Framework “Coach” - rllab, OpenAI baselines, ChainerRL, tensorforce ��間.2017年10月にリリース. - OpenAI Gym, Roboschool, ViZDoom ��環境が使える. - 最近,CARLA という自動運転シミュレータもサポート. - agent �ライン�ップ�,DQN, PG, A3C, PPO, etc - DFP もサポートしている�� Coach だけ! Bonus 26Reinforcement Learning Coach by Intel より引用
  • 27. Bonus 27 Robotics だからといって何でも RL 使え�いい�か...? (上���プチ�で�����している ) 自動運転にどれだけ RL が関係していく�か�,�人的に��.
  • 28. References 28 - [Kempka+ 2016] ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning - [Mnih+ 2015] Human-level control through deep reinforcement learning - [Hausknecht+ 2015] Deep Recurrent Q-Learning for Partially Observable MDPs - [Chaplot+ 2017] Arnold: An Autonomous Agent to Play FPS Games - [Dosovitskiy+ 2016] Learning to Act by Predicting the Future - [Jaderberg+ 2016] Reinforcement Learning with Unsupervised Auxiliary Tasks - [Dosovitskiy+ 2017] CARLA: An Open Urban Driving Simulator