SlideShare a Scribd company logo
1 of 28
1 Confidential
対立強化学習による
鬼ごっこゲームでのスキル獲得
Skill Acquisition for Playing Tag Game
with Adversarial Reinforcement Learning
○大嶋真理絵
(産業技術総合研究所 NEC-産総研 AI 連携研究室)
中田亨
(産業技術総合研究所 NEC-産総研 AI 連携研究室)
2018年9月5日
第36回日本ロボット学会学術講演会
ポスターセッション
2 Confidential
対立強化学習
利害の一致しないエージェントを
同一環境におき,
それぞれ独立して強化学習をさせる
長所 [Pinto, 2017]
• 学習に必要な試行回数を減らせる
• 汎化された方策を学習できる
3 Confidential
本研究で注目すること
スキル
学習した局所的方策のうち,戦術的意味合い
を持ち,課題達成に強く貢献する、特定の行
動パターンを構成する部分
スキル獲得
そのような行動列が含まれた方策を学習した
らスキル獲得ができたとみなす
4 Confidential
学習手法:Q学習
状態表現
Killer と Survivor のグリッド座標の組み合わせ
4 次元ベクトル (225 状態).
行動
「上,下,左,右,停止」のいずれかの行動を選択
選択した方向の隣接グリッドへ移動する
壁や障害物に向かう行動を選択した場合は移動しない
報酬
勝ちは1000,負けは−1000
Timeout の場合の勝ちは 100, 負けは−100
壁や障害物に向かう行動を選択した場合は,−10
各ステップ,−1
5 Confidential
問題設定:鬼ごっこゲーム
Action
6 Confidential
ルール
プレイヤー
Killer と Survivor
Killer が追いかけ,Survivor が逃げる
マップ
初期配置は固定
「ゴール」 Survivor が到達すればSurvivorの勝利となる
「障害物」通行不可
勝利条件
Killer
•Survivor のいるグリッドに到達する
•一定時間,ゴールに Survivor を到達させない (Timeout)
Survivor
•ゴールに到達する
7 Confidential
実験設定
エージェントあたりの学習エピソード数 10000
各エピソードの上限ステップ数 60
上限ステップに達したら Timeout による Killer の Win
ハイパーパラメータ
学習率 α 0.3
割引率 γ 0.08
ε-greedy の ε 0.09
8 Confidential
対立強化学習の設定
• Killer, Survivorを交互に学習させる
• 学習を入れ替える間隔 10 エピソードごと
• 学習を入れ替える回数 1000 回
• 学習は Killer から始める
• Killer に Win を早く経験させるため,最初の 10 エピ
ソードは Survivor は動かない状態で学習させる
9 Confidential
学習結果の分析手法
方策の有効性…Killerの勝率
方策の多様性…ジニ係数
重要な戦略の抽出…クラスタリング
10 Confidential
方策のジニ係数
学習した戦略の多様性→ジニ係数で評価
得られた方策に主成分分析
各主成分の寄与率からジニ係数を算出
11 Confidential
方策のジニ係数
データ:Qテーブルに座標情報を加えたもの
次元数:37
データ点:256
16次元 16次元 5次元
256
データ
12 Confidential
ジニ係数とは
集団の構成要素間の値のばらつきを測る指標
ジニ係数が大→少数の戦略が支配的な状態
ジニ係数が小→幅広い戦略を考慮している状態
ローレンツ曲線と均等分配線によって囲まれる領域
の面積と均等分配線より下の領域の面積の比
13 Confidential
方策のクラスタリング
Kmeans法を使用
10分類
入力は主成分分析と同じデータ
得られたクラスターのうち意味のあるものは
プレイに重要な戦略
14 Confidential
学習の進展
①
②
④
⑤
⑤
⑥
⑥
⑦
⑧
③
Ginicoefficient
, Gini coefficient: x250)
Gini coefficient
15 Confidential
Killerの学習状況 ①500 episodes付近
未学習によるランダム行動が多く、出会い頭事故のようにKiller
が勝利するパターンが多い
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
16 Confidential
Killerの学習状況 ②1000 episodes付近
ゴールから離れる動きでSurvivorに近づいて、Survivorにすり抜けられる
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
17 Confidential
Killerの学習状況 ③2000 episodes付近
Survivorとゴールを遮る方向から近づくが、Survivorにすり抜けられる
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4 グループ8
18 Confidential
Killerの学習状況 ④3000 episodes付近
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
双方全く動かず膠着状態
19 Confidential
Killerの学習状況 ⑤4000 episodes付近
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4 グループ8
Survivorとゴールの間を遮るように動く
20 Confidential
 Survivorをゴールに近づかせない
 外側通路から出さない
 同じ局面を繰り返してTimeoutに持ち込む
Step 8〜12は繰り返し
Killerの学習状況 ⑥4500 episodes付近
スキルを獲得した
21 Confidential
Killerの学習状況 ⑥4500 episodes付近
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
22 Confidential
Survivorを外側通路に追い込む
反対出口をふさぐ
同じ局面を繰り返してTimeoutに持ち込む
Step 7〜10は繰り返し
Killerの学習状況 ⑦6000 episodes付近
スキルを獲得した
23 Confidential
Killerの学習状況 ⑦6000 episodes付近
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
24 Confidential
Survivorを初期位置周辺からゴール方面に近づかせない
同じ局面を繰り返してTimeoutに持ち込む
Step 2〜4は繰り返し
Killerの学習状況 ⑧9500 episodes付近
スキルを獲得した
25 Confidential
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
Killerの学習状況 ⑧9500 episodes付近
26 Confidential
まとめ
鬼ごっこゲームを学習できた
3つのスキル獲得を確認した
方策の複雑性が均衡した
27 Confidential
今後の課題
状態表現の関数近似
シングル学習との学習効率の比較
新ルール、新マップ
•問題の複雑性の評価
ジニ係数がなぜ均衡したかの分析
•survivorを二人にしたら、ジニ係数が半分になるのか?
28 Confidential
参考文献
[1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G.
Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al.:
“Human-level control through deep reinforcement learning”, Nature 518,
pp.529-533, 2015.
[2] J. Heinrich, D. Silver: “Deep Reinforcement Learning from Self-Play in
Imperfect-Information Games”, arXiv:1603.01121, 2016.
[3] L. Pinto, J. Davidson, R. Sukthankar, A. Gupta: “Robust adversarial
reinforcement learning”, arXiv preprint arXiv:1703.02702, 2017.

More Related Content

What's hot

モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するTakahiro Kubo
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic DatasetsDeep Learning JP
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP LatentsDeep Learning JP
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出Kai Sasaki
 
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...Takumi Ohkuma
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
MixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised LearningMixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised Learningharmonylab
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料洋資 堅田
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent AlignmentsDeep Learning JP
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリングmlm_kansai
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsFujimoto Keisuke
 

What's hot (20)

モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
 
機械学習と主成分分析
機械学習と主成分分析機械学習と主成分分析
機械学習と主成分分析
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
「解説資料」Toward Fast and Stabilized GAN Training for High-fidelity Few-shot Imag...
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
MixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised LearningMixMatch: A Holistic Approach to Semi- Supervised Learning
MixMatch: A Holistic Approach to Semi- Supervised Learning
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
[DL輪読会]Non-Autoregressive Machine Translation with Latent Alignments
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture ModelsSliced Wasserstein Distance for Learning Gaussian Mixture Models
Sliced Wasserstein Distance for Learning Gaussian Mixture Models
 

Similar to 対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)

Poster ver3 slideahare
Poster ver3 slideaharePoster ver3 slideahare
Poster ver3 slideaharemarieooshima
 
新卒がモンストとファイトリーグリーグ開発で行ったこと
新卒がモンストとファイトリーグリーグ開発で行ったこと新卒がモンストとファイトリーグリーグ開発で行ったこと
新卒がモンストとファイトリーグリーグ開発で行ったことhogehoge14
 
Chrome Hounds におけるチームAI
Chrome Hounds におけるチームAIChrome Hounds におけるチームAI
Chrome Hounds におけるチームAIYouichiro Miyake
 
正しいものを正しく作る塾-設計コース
正しいものを正しく作る塾-設計コース正しいものを正しく作る塾-設計コース
正しいものを正しく作る塾-設計コース増田 亨
 
プレゼンの作り方2019
プレゼンの作り方2019プレゼンの作り方2019
プレゼンの作り方2019義広 河野
 
機械設計学20230705東大大学院.pdf
機械設計学20230705東大大学院.pdf機械設計学20230705東大大学院.pdf
機械設計学20230705東大大学院.pdf芳徳 高木
 
KPTのコツを掴め!! 公開用
KPTのコツを掴め!! 公開用KPTのコツを掴め!! 公開用
KPTのコツを掴め!! 公開用ESM SEC
 
エスノぶらりのすすめ
エスノぶらりのすすめエスノぶらりのすすめ
エスノぶらりのすすめ大輔 浅井
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術Shohei Hido
 
JTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun TzuJTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun Tzuirix_jp
 
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...Jun Okumura
 
企業内の組織行動20170731
企業内の組織行動20170731企業内の組織行動20170731
企業内の組織行動20170731openrtm
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントRecruit Technologies
 

Similar to 対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター) (14)

Poster ver3 slideahare
Poster ver3 slideaharePoster ver3 slideahare
Poster ver3 slideahare
 
新卒がモンストとファイトリーグリーグ開発で行ったこと
新卒がモンストとファイトリーグリーグ開発で行ったこと新卒がモンストとファイトリーグリーグ開発で行ったこと
新卒がモンストとファイトリーグリーグ開発で行ったこと
 
Chrome Hounds におけるチームAI
Chrome Hounds におけるチームAIChrome Hounds におけるチームAI
Chrome Hounds におけるチームAI
 
正しいものを正しく作る塾-設計コース
正しいものを正しく作る塾-設計コース正しいものを正しく作る塾-設計コース
正しいものを正しく作る塾-設計コース
 
プレゼンの作り方2019
プレゼンの作り方2019プレゼンの作り方2019
プレゼンの作り方2019
 
機械設計学20230705東大大学院.pdf
機械設計学20230705東大大学院.pdf機械設計学20230705東大大学院.pdf
機械設計学20230705東大大学院.pdf
 
KPTのコツを掴め!! 公開用
KPTのコツを掴め!! 公開用KPTのコツを掴め!! 公開用
KPTのコツを掴め!! 公開用
 
エスノぶらりのすすめ
エスノぶらりのすすめエスノぶらりのすすめ
エスノぶらりのすすめ
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
[Japan Tech summit 2017] MAI 001
[Japan Tech summit 2017]  MAI 001[Japan Tech summit 2017]  MAI 001
[Japan Tech summit 2017] MAI 001
 
JTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun TzuJTF2016 The strategy and Sun Tzu
JTF2016 The strategy and Sun Tzu
 
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
 
企業内の組織行動20170731
企業内の組織行動20170731企業内の組織行動20170731
企業内の組織行動20170731
 
ユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイントユーザー企業内製CSIRTにおける対応のポイント
ユーザー企業内製CSIRTにおける対応のポイント
 

対立強化学習による鬼ごっこゲームでのスキル獲得(RSJ2018ポスター)