Poster ver3 slideahare

1 Confidential
対立強化学習による
鬼ごっこゲームでのスキル獲得
Skill Acquisition for Playing Tag Game
with Adversarial Reinforcement Learning
○大嶋真理絵
(産業技術総合研究所 NEC-産総研 AI 連携研究室)
中田亨
(産業技術総合研究所 NEC-産総研 AI 連携研究室)
2018年9月5日
第36回日本ロボット学会学術講演会
ポスターセッション
1

2 Confidential
問題設定：鬼ごっこゲーム
2
Action

3 Confidential
対立強化学習
利害の一致しないエージェントを
同一環境におき，
それぞれ独立して強化学習をさせる
3
長所 [Pinto, 2017]
• 学習に必要な試行回数を減らせる
• 汎化された政策を学習できる

4 Confidential
本研究で注目すること
スキル
学習した局所的政策のうち，戦術的意味合い
を持つと思われる，特定の行動パターンを構
成する部分
スキル獲得
そのような行動列が含まれた政策を学習した
らスキル獲得ができたとみなす
4

5 Confidential
ルール
プレイヤー
Killer と Survivor
Killer が追いかけ，Survivor が逃げる
マップ
初期配置は固定
「ゴール」 Survivor が到達すればSurvivorの勝利となる
「障害物」通行不可
勝利条件
Killer
•Survivor のいるグリッドに到達する
•一定時間，ゴールに Survivor を到達させない (Timeout)
Survivor
•ゴールに到達する
5

6 Confidential
学習手法：Q学習
状態表現
Killer と Survivor のグリッド座標の組み合わせ
4 次元ベクトル (225 状態).
行動
「上，下，左，右，停止」のいずれかの行動を選択
選択した方向の隣接グリッドへ移動する
壁や障害物に向かう行動を選択した場合は移動しない
報酬
勝ちは1000，負けは−1000
Timeout の場合の勝ちは 100，負けは−100
壁や障害物に向かう行動を選択した場合は，−10
各ステップ，−1
6

7 Confidential
実験設定
エージェントあたりの学習エピソード数 10000
各エピソードの上限ステップ数 60
上限ステップに達したら Timeout による Killer の Win
ハイパーパラメータ
• 予備実験を行い，最適と思われる値を選択した.
学習率 α 0.3
割引率 γ 0.08
ε-greedy の ε 0.09
7

8 Confidential
対立強化学習の設定
• Killer, Survivorを交互に学習させる
• 学習を入れ替える間隔 10 エピソードごと
• 学習を入れ替える回数 1000 回
• 学習は Killer から始める
• Killer に Win を早く経験させるため，最初の 10 エピ
ソードは Survivor は動かない状態で学習させる
8

9 Confidential
学習結果の評価指標
Killerの勝率
Q値のジニ係数
政策のクラスタリング
9

10 Confidential
Q値のジニ係数
Qテーブルに主成分分析
各主成分の寄与率からジニ係数を算出
ジニ係数によって、学習した戦略の幅広さを評価
ジニ係数が大→少数の戦略が支配的な状態
ジニ係数が小→幅広い戦略を考慮している状態
10

11 Confidential
政策のクラスタリング
Kmeans法を使用
10分類
得られたクラスターのうち意味のあるものは
プレイに重要な戦略
11

13 Confidential
Killerの獲得した戦略
13
①
②
④
⑤
⑤
⑥
⑥
⑦
⑧
③

14 Confidential
Killerの獲得した戦略 ①500 episodes付近
14
未学習によるランダム行動が多く、出会い頭事故のようにKiller
が勝利するパターンが多い
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6

15 Confidential
Killerの獲得した戦略 ②1000 episodes付近
15
ゴールから離れる動きでSurvivorに近づいて、Survivorにすり抜けられる
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6

16 Confidential
Killerの獲得した戦略 ③2000 episodes付近
16
Survivorとゴールを遮る方向から近づくが、Survivorにすり抜けられる
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4 グループ8

17 Confidential
Killerの獲得した戦略 ④3000 episodes付近
17
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
双方全く動かず膠着状態

18 Confidential
Killerの獲得した戦略 ⑤4000 episodes付近
18
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4 グループ8
Survivorとゴールの間を遮るように動く

19 Confidential
19
 Survivorをゴールに近づかせない
 外側通路から出さない
 同じ局面を繰り返してTimeoutに持ち込む
Step 8〜12は繰り返し
Killerの獲得した戦略 ⑥4500 episodes付近

20 Confidential
Killerの獲得した戦略 ⑥4500 episodes付近
20
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8

21 Confidential
21
Survivorを外側通路に追い込む
反対出口をふさぐ
同じ局面を繰り返してTimeoutに持ち込む
Killerの獲得した戦略 ⑦6000 episodes付近

22 Confidential
Killerの獲得した戦略 ⑦6000 episodes付近
22
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8

23 Confidential
23
Survivorを初期位置周辺からゴール方面に近づかせない
同じ局面を繰り返してTimeoutに持ち込む
Killerの獲得した戦略 ⑧9500 episodes付近

24 Confidential
24
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
Killerの獲得した戦略 ⑧9500 episodes付近

25 Confidential
今後の課題
状態表現の関数近似
シングル学習との学習効率の比較
新ルール、新マップ
•コルモゴロフ複雑性の評価
ジニ係数がなぜ収束したかの分析
•survivorを二人にしたら、ジニ係数が半分になるのか？
25

26 Confidential
参考文献
[1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G.
Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al.:
“Human-level control through deep reinforcement learning”, Nature 518,
pp.529-533, 2015.
[2] J. Heinrich, D. Silver: “Deep Reinforcement Learning from Self-Play in
Imperfect-Information Games”, arXiv:1603.01121, 2016.
[3] L. Pinto, J. Davidson, R. Sukthankar, A. Gupta: “Robust adversarial
reinforcement learning”, arXiv preprint arXiv:1703.02702, 2017.
26

Poster ver3 slideahare

Recommended

Recommended

More Related Content

Featured

Featured (20)

Poster ver3 slideahare