SlideShare a Scribd company logo
1 of 26
1 Confidential
対立強化学習による
鬼ごっこゲームでのスキル獲得
Skill Acquisition for Playing Tag Game
with Adversarial Reinforcement Learning
○大嶋真理絵
(産業技術総合研究所 NEC-産総研 AI 連携研究室)
中田亨
(産業技術総合研究所 NEC-産総研 AI 連携研究室)
2018年9月5日
第36回日本ロボット学会学術講演会
ポスターセッション
1
2 Confidential
問題設定:鬼ごっこゲーム
2
Action
3 Confidential
対立強化学習
利害の一致しないエージェントを
同一環境におき,
それぞれ独立して強化学習をさせる
3
長所 [Pinto, 2017]
• 学習に必要な試行回数を減らせる
• 汎化された政策を学習できる
4 Confidential
本研究で注目すること
スキル
学習した局所的政策のうち,戦術的意味合い
を持つと思われる,特定の行動パターンを構
成する部分
スキル獲得
そのような行動列が含まれた政策を学習した
らスキル獲得ができたとみなす
4
5 Confidential
ルール
プレイヤー
Killer と Survivor
Killer が追いかけ,Survivor が逃げる
マップ
初期配置は固定
「ゴール」 Survivor が到達すればSurvivorの勝利となる
「障害物」通行不可
勝利条件
Killer
•Survivor のいるグリッドに到達する
•一定時間,ゴールに Survivor を到達させない (Timeout)
Survivor
•ゴールに到達する
5
6 Confidential
学習手法:Q学習
状態表現
Killer と Survivor のグリッド座標の組み合わせ
4 次元ベクトル (225 状態).
行動
「上,下,左,右,停止」のいずれかの行動を選択
選択した方向の隣接グリッドへ移動する
壁や障害物に向かう行動を選択した場合は移動しない
報酬
勝ちは1000,負けは−1000
Timeout の場合の勝ちは 100, 負けは−100
壁や障害物に向かう行動を選択した場合は,−10
各ステップ,−1
6
7 Confidential
実験設定
エージェントあたりの学習エピソード数 10000
各エピソードの上限ステップ数 60
上限ステップに達したら Timeout による Killer の Win
ハイパーパラメータ
• 予備実験を行い,最適と思われる値を選択した.
学習率 α 0.3
割引率 γ 0.08
ε-greedy の ε 0.09
7
8 Confidential
対立強化学習の設定
• Killer, Survivorを交互に学習させる
• 学習を入れ替える間隔 10 エピソードごと
• 学習を入れ替える回数 1000 回
• 学習は Killer から始める
• Killer に Win を早く経験させるため,最初の 10 エピ
ソードは Survivor は動かない状態で学習させる
8
9 Confidential
学習結果の評価指標
Killerの勝率
Q値のジニ係数
政策のクラスタリング
9
10 Confidential
Q値のジニ係数
Qテーブルに主成分分析
各主成分の寄与率からジニ係数を算出
ジニ係数によって、学習した戦略の幅広さを評価
ジニ係数が大→少数の戦略が支配的な状態
ジニ係数が小→幅広い戦略を考慮している状態
10
11 Confidential
政策のクラスタリング
Kmeans法を使用
10分類
得られたクラスターのうち意味のあるものは
プレイに重要な戦略
11
12 Confidential
12
13 Confidential
Killerの獲得した戦略
13
①
②
④
⑤
⑤
⑥
⑥
⑦
⑧
③
14 Confidential
Killerの獲得した戦略 ①500 episodes付近
14
未学習によるランダム行動が多く、出会い頭事故のようにKiller
が勝利するパターンが多い
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
15 Confidential
Killerの獲得した戦略 ②1000 episodes付近
15
ゴールから離れる動きでSurvivorに近づいて、Survivorにすり抜けられる
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
16 Confidential
Killerの獲得した戦略 ③2000 episodes付近
16
Survivorとゴールを遮る方向から近づくが、Survivorにすり抜けられる
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4 グループ8
17 Confidential
Killerの獲得した戦略 ④3000 episodes付近
17
クラスタリング結果
グループ1
グループ2
グループ3
グループ4
グループ5
グループ6
双方全く動かず膠着状態
18 Confidential
Killerの獲得した戦略 ⑤4000 episodes付近
18
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4 グループ8
Survivorとゴールの間を遮るように動く
19 Confidential
19
 Survivorをゴールに近づかせない
 外側通路から出さない
 同じ局面を繰り返してTimeoutに持ち込む
Step 8〜12は繰り返し
Killerの獲得した戦略 ⑥4500 episodes付近
20 Confidential
Killerの獲得した戦略 ⑥4500 episodes付近
20
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
21 Confidential
21
Survivorを外側通路に追い込む
反対出口をふさぐ
同じ局面を繰り返してTimeoutに持ち込む
Step 7〜10は繰り返し
Killerの獲得した戦略 ⑦6000 episodes付近
22 Confidential
Killerの獲得した戦略 ⑦6000 episodes付近
22
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
23 Confidential
23
Survivorを初期位置周辺からゴール方面に近づかせない
同じ局面を繰り返してTimeoutに持ち込む
Step 2〜4は繰り返し
Killerの獲得した戦略 ⑧9500 episodes付近
24 Confidential
24
クラスタリング結果
グループ1
グループ2
グループ3
グループ5
グループ6
グループ7
グループ4
グループ8
Killerの獲得した戦略 ⑧9500 episodes付近
25 Confidential
今後の課題
状態表現の関数近似
シングル学習との学習効率の比較
新ルール、新マップ
•コルモゴロフ複雑性の評価
ジニ係数がなぜ収束したかの分析
•survivorを二人にしたら、ジニ係数が半分になるのか?
25
26 Confidential
参考文献
[1] V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G.
Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, et al.:
“Human-level control through deep reinforcement learning”, Nature 518,
pp.529-533, 2015.
[2] J. Heinrich, D. Silver: “Deep Reinforcement Learning from Self-Play in
Imperfect-Information Games”, arXiv:1603.01121, 2016.
[3] L. Pinto, J. Davidson, R. Sukthankar, A. Gupta: “Robust adversarial
reinforcement learning”, arXiv preprint arXiv:1703.02702, 2017.
26

More Related Content

Featured

Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Poster ver3 slideahare