SlideShare a Scribd company logo
1 Confidential
対立強化学習による
鬼ごっこゲームでのスキル獲得
Skill Acquisition for Playing Tag Game
with Adversarial Reinforcement Learning
○大嶋真理絵
(産業技術総合研究所 NEC-産総研 AI 連携研究室)
中田亨
(産業技術総合研究所 NEC-産総研 AI 連携研究室)
2018年9月5日
第36回日本ロボット学会学術講演会
ポスターセッション
2 Confidential
対立強化学習
利害の一致しないエージェントを
同一環境におき,
それぞれ独立して強化学習をさせる
長所 [Pinto, 2017]
• 学習に必要な試行回数を減らせる
• 汎化された方策を学習できる
3 Confidential
本研究で注目すること
スキル
学習した局所的方策のうち,戦術的意味合い
を持ち,課題達成に強く貢献する、特定の行
動パターンを構成する部分
スキル獲得
そのような行動列が含まれた方策を学習した
らスキル獲得ができたとみなす
4 Confidential
学習手法:Q学習
状態表現
Killer と Survivor のグリッド座標の組み合わせ
4 次元ベクトル (225 状態).
行動
「上,下,左,右,停止」のいずれかの行動を選択
選択した方向の隣接グリッドへ移動する
壁や障害物に向かう行動を選択した場合は移動しない
報酬
勝ちは1000,負けは−1000
Timeout の場合の勝ちは 100, 負けは−100
壁や障害物に向かう行動を選択した場合は,−10
各ステップ,−1
5 Confidential
問題設定:鬼ごっこゲーム
Action
6 Confidential
ルール
プレイヤー
Killer と Survivor
Killer が追いかけ,Survivor が逃げる
マップ
初期配置は固定
「ゴール」 Survivor が到達すればSurvivorの勝利となる
「障害物」通行不可
勝利条件
Killer
•Survivor のいるグリッドに到達する
•一定時間,ゴールに Survivor を到達させない (Timeout)
Survivor
•ゴールに到達する
7 Confidential
実験設定
エージェントあたりの学習エピソード数 10000
各エピソードの上限ステップ数 60
上限ステップに達したら Timeout による Killer の Win
ハイパーパラメータ
学習率 α 0.3
割引率 γ 0.08
ε-greedy の ε 0.09
8 Confidential
対立強化学習の設定
• Killer, Survivorを交互に学習させる
• 学習を入れ替える間隔 10 エピソードごと
• 学習を入れ替える回数 1000 回
• 学習は Killer から始める
• Killer に Win を早く経験させるため,最初の 10 エピ
ソードは Survivor は動かない状態で学習させる
9 Confidential
学習結果の分析手法
方策の有効性…Killerの勝率
方策の多様性…ジニ係数
重要な戦略の抽出…クラスタリング
10 Confidential
方策のジニ係数
学習した戦略の多様性→ジニ係数で評価
得られた方策に主成分分析
各主成分の寄与率からジニ係数を算出
11 Confidential
方策のジニ係数
データ:Qテーブルに座標情報を加えたもの
次元数:37
データ点:256
16次元 16次元 5次元
256
データ
12 Confidential
ジニ係数とは
集団の構成要素間の値のばらつきを測る指標
ジニ係数が大→少数の戦略が支配的な状態
ジニ係数が小→幅広い戦略を考慮している状態
ローレンツ曲線と均等分配線によって囲まれる領域
の面積と均等分配線より下の領域の面積の比
13 Confidential
方策のクラスタリング
Kmeans法を使用
10分類
入力は主成分分析と同じデータ
得られたクラスターのうち意味のあるものは
プレイに重要な戦略
14 Confidential
学習の進展
①
②
④
⑤
⑤
⑥
⑥
⑦
⑧
③
Ginicoefficient
, Gini coefficient: x250)
Gini coefficient
15 Confidential
Killerの学習状況 ①500 episodes付近
未学習によるランダム行動が多く、出会い頭事故のようにKiller
が勝利するパターンが多い
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
16 Confidential
Killerの学習状況 ②1000 episodes付近
ゴールから離れる動きでSurvivorに近づいて、Survivorにすり抜けられる
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
17 Confidential
Killerの学習状況 ③2000 episodes付近
Survivorとゴールを遮る方向から近づくが、Survivorにすり抜けられる
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4 グループ8
18 Confidential
Killerの学習状況 ④3000 episodes付近
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
双方全く動かず膠着状態
19 Confidential
Killerの学習状況 ⑤4000 episodes付近
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4 グループ8
Survivorとゴールの間を遮るように動く
20 Confidential
 Survivorをゴールに近づかせない
 外側通路から出さない
 同じ局面を繰り返してTimeoutに持ち込む
Step 8〜12は繰り返し
Killerの学習状況 ⑥4500 episodes付近
スキルを獲得した
21 Confidential
Killerの学習状況 ⑥4500 episodes付近
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
22 Confidential
Survivorを外側通路に追い込む
反対出口をふさぐ
同じ局面を繰り返してTimeoutに持ち込む
Step 7〜10は繰り返し
Killerの学習状況 ⑦6000 episodes付近
スキルを獲得した
23 Confidential
Killerの学習状況 ⑦6000 episodes付近
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
24 Confidential
Survivorを初期位置周辺からゴール方面に近づかせない
同じ局面を繰り返してTimeoutに持ち込む
Step 2〜4は繰り返し
Killerの学習状況 ⑧9500 episodes付近
スキルを獲得した
25 Confidential
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
Killerの学習状況 ⑧9500 episodes付近
26 Confidential
まとめ
鬼ごっこゲームを学習できた
3つのスキル獲得を確認した
方策の複雑性が均衡した
27 Confidential
今後の課題
状態表現の関数近似
シングル学習との学習効率の比較
新ルール、新マップ
•問題の複雑性の評価
ジニ係数がなぜ均衡したかの分析
•survivorを二人にしたら、ジニ係数が半分になるのか?
28 Confidential
参考文献
[1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G.
Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al.:
“Human-level control through deep reinforcement learning”, Nature 518,
pp.529-533, 2015.
[2] J. Heinrich, D. Silver: “Deep Reinforcement Learning from Self-Play in
Imperfect-Information Games”, arXiv:1603.01121, 2016.
[3] L. Pinto, J. Davidson, R. Sukthankar, A. Gupta: “Robust adversarial
reinforcement learning”, arXiv preprint arXiv:1703.02702, 2017.

More Related Content

What's hot

『データ解析におけるプライバシー保護』勉強会 秘密計算
『データ解析におけるプライバシー保護』勉強会 秘密計算『データ解析におけるプライバシー保護』勉強会 秘密計算
『データ解析におけるプライバシー保護』勉強会 秘密計算
MITSUNARI Shigeo
 

What's hot (20)

強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化Tensor コアを使った PyTorch の高速化
Tensor コアを使った PyTorch の高速化
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門いまさら聞けない!CUDA高速化入門
いまさら聞けない!CUDA高速化入門
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
『データ解析におけるプライバシー保護』勉強会 秘密計算
『データ解析におけるプライバシー保護』勉強会 秘密計算『データ解析におけるプライバシー保護』勉強会 秘密計算
『データ解析におけるプライバシー保護』勉強会 秘密計算
 
CatBoost on GPU のひみつ
CatBoost on GPU のひみつCatBoost on GPU のひみつ
CatBoost on GPU のひみつ
 
研究発表を準備する(2022年版)
研究発表を準備する(2022年版)研究発表を準備する(2022年版)
研究発表を準備する(2022年版)
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜プログラムを高速化する話Ⅱ 〜GPGPU編〜
プログラムを高速化する話Ⅱ 〜GPGPU編〜
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 

Similar to 対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)

Similar to 対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター) (14)

Poster ver3 slideahare
Poster ver3 slideaharePoster ver3 slideahare
Poster ver3 slideahare
 
新卒がモンストとファイトリーグリーグ開発で行ったこと
新卒がモンストとファイトリーグリーグ開発で行ったこと新卒がモンストとファイトリーグリーグ開発で行ったこと
新卒がモンストとファイトリーグリーグ開発で行ったこと
 
Chrome Hounds におけるチームAI
Chrome Hounds におけるチームAIChrome Hounds におけるチームAI
Chrome Hounds におけるチームAI
 
正しいものを正しく作る塾-設計コース
正しいものを正しく作る塾-設計コース正しいものを正しく作る塾-設計コース
正しいものを正しく作る塾-設計コース
 
プレゼンの作り方2019
プレゼンの作り方2019プレゼンの作り方2019
プレゼンの作り方2019
 
機械設計学20230705東大大学院.pdf
機械設計学20230705東大大学院.pdf機械設計学20230705東大大学院.pdf
機械設計学20230705東大大学院.pdf
 
KPTのコツを掴め!! 公開用
KPTのコツを掴め!! 公開用KPTのコツを掴め!! 公開用
KPTのコツを掴め!! 公開用
 
エスノぶらりのすすめ
エスノぶらりのすすめエスノぶらりのすすめ
エスノぶらりのすすめ
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
[Japan Tech summit 2017] MAI 001
[Japan Tech summit 2017]  MAI 001[Japan Tech summit 2017]  MAI 001
[Japan Tech summit 2017] MAI 001
 
JTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun TzuJTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun Tzu
 
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
 
企業内の組織行動20170731
企業内の組織行動20170731企業内の組織行動20170731
企業内の組織行動20170731
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 

対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)