対立強化学習による鬼ごっこゲームでのスキル獲得（RSJ2018ポスター）

1 Confidential
対立強化学習による
鬼ごっこゲームでのスキル獲得
Skill Acquisition for Playing Tag Game
with Adversarial Reinforcement Learning
○大嶋真理絵
(産業技術総合研究所 NEC-産総研 AI 連携研究室)
中田亨
(産業技術総合研究所 NEC-産総研 AI 連携研究室)
2018年9月5日
第36回日本ロボット学会学術講演会
ポスターセッション

2 Confidential
対立強化学習
利害の一致しないエージェントを
同一環境におき，
それぞれ独立して強化学習をさせる
長所 [Pinto, 2017]
• 学習に必要な試行回数を減らせる
• 汎化された方策を学習できる

3 Confidential
本研究で注目すること
スキル
学習した局所的方策のうち，戦術的意味合い
を持ち，課題達成に強く貢献する、特定の行
動パターンを構成する部分
スキル獲得
そのような行動列が含まれた方策を学習した
らスキル獲得ができたとみなす

4 Confidential
学習手法：Q学習
状態表現
Killer と Survivor のグリッド座標の組み合わせ
4 次元ベクトル (225 状態).
行動
「上，下，左，右，停止」のいずれかの行動を選択
選択した方向の隣接グリッドへ移動する
壁や障害物に向かう行動を選択した場合は移動しない
報酬
勝ちは1000，負けは−1000
Timeout の場合の勝ちは 100，負けは−100
壁や障害物に向かう行動を選択した場合は，−10
各ステップ，−1

5 Confidential
問題設定：鬼ごっこゲーム
Action

6 Confidential
ルール
プレイヤー
Killer と Survivor
Killer が追いかけ，Survivor が逃げる
マップ
初期配置は固定
「ゴール」 Survivor が到達すればSurvivorの勝利となる
「障害物」通行不可
勝利条件
Killer
•Survivor のいるグリッドに到達する
•一定時間，ゴールに Survivor を到達させない (Timeout)
Survivor
•ゴールに到達する

7 Confidential
実験設定
エージェントあたりの学習エピソード数 10000
各エピソードの上限ステップ数 60
上限ステップに達したら Timeout による Killer の Win
ハイパーパラメータ
学習率 α 0.3
割引率 γ 0.08
ε-greedy の ε 0.09

8 Confidential
対立強化学習の設定
• Killer, Survivorを交互に学習させる
• 学習を入れ替える間隔 10 エピソードごと
• 学習を入れ替える回数 1000 回
• 学習は Killer から始める
• Killer に Win を早く経験させるため，最初の 10 エピ
ソードは Survivor は動かない状態で学習させる

9 Confidential
学習結果の分析手法
方策の有効性…Killerの勝率
方策の多様性…ジニ係数
重要な戦略の抽出…クラスタリング

10 Confidential
方策のジニ係数
学習した戦略の多様性→ジニ係数で評価
得られた方策に主成分分析
各主成分の寄与率からジニ係数を算出

11 Confidential
方策のジニ係数
データ：Qテーブルに座標情報を加えたもの
次元数：37
データ点：256
16次元 16次元 5次元
256
データ

12 Confidential
ジニ係数とは
集団の構成要素間の値のばらつきを測る指標
ジニ係数が大→少数の戦略が支配的な状態
ジニ係数が小→幅広い戦略を考慮している状態
ローレンツ曲線と均等分配線によって囲まれる領域
の面積と均等分配線より下の領域の面積の比

13 Confidential
方策のクラスタリング
Kmeans法を使用
10分類
入力は主成分分析と同じデータ
得られたクラスターのうち意味のあるものは
プレイに重要な戦略

14 Confidential
学習の進展
①
②
④
⑤
⑤
⑥
⑥
⑦
⑧
③
Ginicoefficient
, Gini coefficient: x250)
Gini coefficient

15 Confidential
Killerの学習状況 ①500 episodes付近
未学習によるランダム行動が多く、出会い頭事故のようにKiller
が勝利するパターンが多い
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6

16 Confidential
Killerの学習状況 ②1000 episodes付近
ゴールから離れる動きでSurvivorに近づいて、Survivorにすり抜けられる
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6

17 Confidential
Killerの学習状況 ③2000 episodes付近
Survivorとゴールを遮る方向から近づくが、Survivorにすり抜けられる
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4 グループ8

18 Confidential
Killerの学習状況 ④3000 episodes付近
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
双方全く動かず膠着状態

19 Confidential
Killerの学習状況 ⑤4000 episodes付近
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4 グループ8
Survivorとゴールの間を遮るように動く

20 Confidential
 Survivorをゴールに近づかせない
 外側通路から出さない
 同じ局面を繰り返してTimeoutに持ち込む
Step 8〜12は繰り返し
Killerの学習状況 ⑥4500 episodes付近
スキルを獲得した

21 Confidential
Killerの学習状況 ⑥4500 episodes付近
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8

22 Confidential
Survivorを外側通路に追い込む
反対出口をふさぐ
同じ局面を繰り返してTimeoutに持ち込む
Killerの学習状況 ⑦6000 episodes付近

23 Confidential
Killerの学習状況 ⑦6000 episodes付近
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8

24 Confidential
Survivorを初期位置周辺からゴール方面に近づかせない
同じ局面を繰り返してTimeoutに持ち込む
Killerの学習状況 ⑧9500 episodes付近

25 Confidential
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
Killerの学習状況 ⑧9500 episodes付近

26 Confidential
まとめ
鬼ごっこゲームを学習できた
３つのスキル獲得を確認した
方策の複雑性が均衡した

27 Confidential
今後の課題
状態表現の関数近似
シングル学習との学習効率の比較
新ルール、新マップ
•問題の複雑性の評価
ジニ係数がなぜ均衡したかの分析
•survivorを二人にしたら、ジニ係数が半分になるのか？

28 Confidential
参考文献
[1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G.
Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al.:
“Human-level control through deep reinforcement learning”, Nature 518,
pp.529-533, 2015.
[2] J. Heinrich, D. Silver: “Deep Reinforcement Learning from Self-Play in
Imperfect-Information Games”, arXiv:1603.01121, 2016.
[3] L. Pinto, J. Davidson, R. Sukthankar, A. Gupta: “Robust adversarial
reinforcement learning”, arXiv preprint arXiv:1703.02702, 2017.

対立強化学習による鬼ごっこゲームでのスキル獲得（RSJ2018ポスター）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 対立強化学習による鬼ごっこゲームでのスキル獲得（RSJ2018ポスター）

Similar to 対立強化学習による鬼ごっこゲームでのスキル獲得（RSJ2018ポスター） (14)

対立強化学習による鬼ごっこゲームでのスキル獲得（RSJ2018ポスター）